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HU m 


计算 机 技术 飞速 发 展 ， 人 们 对 计算 机 使 用 技能 的 要 求 也 越 来 越 高 。 在 编写 软件 时 ， 大 家 既 
希望 有 超 高 的 效率 ， 又 希望 这 门 语言 简单 易 用 。 这 种 鱼 与 能 掌 皆 得 的 要 求 的 确 很 高 ，Python 
编程 语言 恰好 符合 这 么 苛刻 的 要 求 。 

Python 的 执行 效率 仅 比 效 率 之 王 C 略 差 一 筹 ， 在 简单 易 用 方面 Python 也 名 列 三 甲 。 可 以 
说 Python 在 效率 和 简单 之 间 达 到 了 平衡 。 另 外 ，Python 还 是 一 门 胶水 语言 ， 可 以 将 其 他 编程 
语言 的 优点 融合 在 一 起 ， 达 到 1+1>2 的 效果 。 这 也 是 Python 如 今 使 用 人 数 越 来 越 多 的 原因 。 

Python 语言 发 展 迅 速 ， 在 各 行 各 业 都 发 挥 独特 的 作用 。 在 各 大 企业 、 学 校 、 机 关 都 运行 
着 Python 明星 程序 。 但 就 个 人 而 言 ， 运 用 Python 最 多 的 还 是 网 络 爬 虫 ( 这 里 的 朴 虫 仅 涉 及 从 
网 页 提取 数据 ， 不 涉及 深度 、 广 度 算法 爬虫 搜索 )。 在 网 络 上 经 常 更 新 的 数据 ， 无 须 每 次 都 打 
开 网 页 浏览 ， 使 用 息 虫 程序 ， 一 键 获取 数据 ， 下 载 保存 后 分 析 。 考 虑 到 Python EREN E 
的 资料 虽 多 , 但 大 多 都 不 成 系统 , 难以 提供 系统 有 效 的 学 习 。 因 此 笔者 抛砖引玉 ,编写 了 这 本 
AX Python 网 络 怜 虫 的 书 ， 以 供 读者 学 习 参 考 。 

Python 简单 易学 , Python 疏 虫 也 不 复杂 。 只 需要 了 解 了 Python 的 基本 操作 即 可 自行 编写 。 
本 书 中 介绍 了 几 种 不 同类 型 的 Python 聆 虫 ， 可 以 针对 不 同情 况 的 站 点 进行 数据 收集 。 


本 书 特色 


© 附带 全 部 源 代 码 。 为 了 便于 读者 理解 本 书 内 容 ， 作 者 已 将 全 部 的 源 代 码 上 传 到 网 络 ， 
供 读者 下 载 使 用 。 读 者 通过 代码 学 习 开 发 思路 ， 精 简 优 化 代码 。 

€ 涵盖 了 Linux&Windows 上 模块 的 安装 配置 。 本 书包 含 了 Python 模块 源 的 配置 、 模 块 
的 安装 ， 以 及 常用 IDE 的 使 用 。 

@ 实战 实例 。 通 过 常用 的 实例 ， 详 细 说 明 网 络 爬 虫 的 编写 过 程 。 


本 书 内 容 


本 书 共 10 章 ， 前 面 4 章 简单 地 介绍 了 Python 3.6 的 基本 用 法 和 简单 Python 程序 的 编写 。 
38 5 章 的 Scrapy 爬虫 框架 主要 针对 一 般 无 须 登 录 的 网 站 ， 在 怜 取 大 量 数据 时 使 用 Scrapy 会 很 
方便 。 第 6 章 的 Beautiful Soup JE nf LAS ENE “AAR”. Beautiful Soup EEE HEX 
一 些 疏 取 数据 比较 少 的 , 结构 简单 的 网 站 。 第 7 章 的 Mechanize 模块 , 主要 功能 是 模拟 浏览 器 。 


它 的 作用 主要 是 针对 那些 需要 登录 验证 的 网 站 。 第 8 章 的 Selenium 模块 ， 主 要 功能 也 是 模拟 
浏览 器 ， 它 的 作用 主要 是 针对 JavaScript 返回 数据 的 网 站 。 第 9 章 的 Pyspider 是 由 国人 自 产 的 
JE HEA. Pyspider 框架 独 具 一 格 的 Web 接口 让 怜 虫 的 使 用 更 加 简单 。 第 10 章 简单 介绍 了 反 
疏 虫 技术 ， 使 读者 编写 的 爬虫 可 以 绕 过 简单 的 反 怜 虫 技术 更 加 灵活 地 获取 数据 。 

本 书 用 于 Python 3 编程 与 Python 3 网 络 爬 虫 快 速 入 门 。 另 外 ， 为 了 让 读者 多 了 解 几 个 疏 
虫 框架 ， 本 书 也 介绍 了 Python 2.7 下 运行 的 Mechanize 5 Pyspider 工具 。 


修订 说 明 


本 书 第 1 版 使 用 了 Python 2.7， 由 于 Python 2 未 来 不 再 被 官方 支持 ， 今 后 Python 将 逐渐 
转换 到 Python 3 版 本 。Python 3 基本 上 可 以 与 Python 2 兼容 ， 但 细节 方面 略 有 差异 ， 比 如 某 
些 模块 的 名 称 (Python2 中 的 urllib2 在 Python 3 中 变 成 了 urllib.request)。 本 次 修订 将 所 有 支持 
Python 3 (MMA ee HAM T Python 3 的 版 本 ， 更 加 符合 主流 。 目 前 暂时 不 支持 Python 3、 只 
支持 Python 2 [fy MEH CMechanize 5j Pyspider) 也 修订 了 代码 ， 改 正 了 一 些 因为 目标 网 站 改版 
而 造成 仆 虫 不 能 使 用 的 问题 。 


源 代码 下 载 
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为 什么 选择 Python 2K 55 ZG NE d ? 

众所周知 Python 的 运行 速度 并 不 是 最 快 的 ， 比 不 上 Java， 比 不 上 C++， 更 比 不 上 传说 中 
的 速度 效率 之 王 C。 学 习 资料 的 完备 也 不 在 三 甲 之 内 ， 市 面 上 讲解 C&C++ 的 书籍 绝对 是 
Python 的 几 倍 甚至 几 十 倍 。 使 用 的 人 数 也 不 是 最 多 ， 目 前 还 是 使 用 Java、C、C++ 的 人 要 更 
多 一 些 。 

那么 ， 为 什么 会 选择 Python? 

首先 是 它 简 单 易学 ， 简 单 到 没有 学 过 任何 编程 语言 的 人 稍微 看 下 资料 ， 再 看 几 个 示例 就 
可 以 编写 出 可 用 的 程序 ， 其 次 它 是 一 门 解释 型 编程 语言 ， 编 写 完毕 后 可 直接 执行 ， 无 须 编 
$, RIL Bug 后 立即 修改 ， 省 下 了 无 数 的 编译 时 间 ; 还 有 它 的 代码 重用 性 高 ， 可 以 把 包含 某 
个 功能 的 程序 当成 模块 代入 其 他 程序 中 使 用 ， 因 而 Python 的 模块 库 庞 大 到 恐怖 ， 几 乎 是 无 所 
不 包 ; 最 后 就 是 因为 它 的 跨 平台 性 ， 几 乎 所 有 的 Python 程序 都 可 以 不 加 修改 地 运行 在 不 同 的 
操作 平台 ， 都 能 得 到 同样 的 结果 。 这 么 多 的 优点 都 集中 在 这 个 语言 中 ， 因 此 写 没 有 特殊 要 求 
的 网 络 疏 虫 最 好 的 选择 就 是 使 用 Python. 


Python 简介 


了 解 一 门 语言 ， 我 们 先 从 它 的 历史 说 起 。Python 的 应 用 越 来 越 广泛 ， 它 最 初 是 用 来 做 什 
么 用 的 ， 之 后 又 如 何 发 展 的 ， 了 解 这 些 ， 我 们 就 更 能 了 解 Python 。 


1.1.1 Python 的 历史 由 来 

Python 是 一 种 开源 的 面向 对 象 的 脚本 语言 ， 它 起 源 于 1989 ER, Ht, CWI Ciy 
特 丹 国家 数学 和 计算 机 科学 研究 所 ) 的 研究 员 Guido van Rossum 需要 一 种 高 级 脚本 编程 语 
言 ， 为 其 研究 小 组 的 Amoeba 分 布 式 操作 系统 执行 管理 任务 。 为 创建 新 语言 ， 他 从 高 级 数学 
语言 ABC (ALL BASIC CODE) 汲取 了 大 量 语法 ， 并 从 系统 编程 语言 Modula-3 借鉴 了 错误 
处 理 机 制 。Van Rossum 把 这 种 新 的 语言 命名 为 Python (大 蟒蛇 ) 一 一 来 源 于 BBC 当时 正在 
热 播 的 喜剧 连续 剧 Monty Python. 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 





美和 强大 ， 是 专门 为 非 专业 程序 员 设 计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido iA 
为 是 非 开放 造成 的 。Guido 决心 在 Python 中 避免 这 一 错误 。 同 时 ， 他 还 想 实现 在 ABC PIN 
现 过 但 未 曾 实现 的 东西 。 

就 这 样 ，Python 在 Guido 手中 诞生 了 。 可 以 说 ，Python 是 从 ABC 发 展 起 来 ， 并 且 结 合 
了 Unix shell 和 C 的 习惯 。Python 源 代码 遵循 GPL (GNU General Public License) 协议 ， 所 
以 任何 个 人 用 户 都 可 以 免费 使 用 。 


1.1.2 Python 的 现状 

Python 于 1991 年 初 公开 发 行 。 由 于 功能 强大 并 采用 开源 方式 发 行 ，Python 发 展 得 很 
快 ， 用 户 越 来 越 多 ， 形 成 了 一 个 强大 的 社区 力量 。2001 年 ，Python 的 核心 开发 团队 移师 
Digital Creations 公司 ， 该 公司 是 Zope( 一 个 用 Python 编写 的 Web 应 用 服务 器 ) 的 创始 者 。 
大 家 可 以 到 http://www.python.org/ 上 了 解 最 新 的 Python 动态 和 资料 。 

如 今 ，Python 已 经 成 为 最 受 欢迎 的 程序 设计 语言 之 一 。2011 年 1 月 ， 它 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 年 度 语 言 。 自 从 2004 年 以 后 ，Python 的 使 用 率 呈 线性 增长 。 


1.1.3 Python 的 应 用 
Python 应 用 广泛 ， 特 别 适用 于 以 下 几 个 方面 。 


© 系统 编程 : 提供 API (Application Programming Interface， 应 用 程序 编程 接口 ) fib 
方便 地 进行 系统 维护 和 管理 ，Linux 下 标志 性 语言 之 一 ， 是 很 多 系统 管理 员 理 想 的 
编程 工具 。 

€ 图形 处 理 : 有 PIL. Tkinter 等 图 形 库 支持 ， 能 方便 进行 图 形 处 理 。 

数学 处 理 : NumPy 扩展 提供 大 量 与 许多 标准 数学 库 的 接口 。 

€ 文本 处 理 : Python 提供 的 re 模块 能 支持 正则 表达 式 ， 还 提供 SGML. XML 分 析 模 
块 ， 许 多 程序 员 利用 Python 进行 XML 程序 的 开发 。 

© 数据 库 编程 : 程序 员 可 通过 遵循 Python DB-API (数据 库 应 用 程序 编程 接口 ) 规范 
的 模块 与 Microsoft SQL Server. Oracle, Sybase, DB2. MySQL. SQLite 等 数据 库 
通信 。Python 自 带 有 一 个 Gadfly 模块 ， 提 供 了 一 个 完整 的 SQL 环境 。 

@ ”网 络 编程 : 提供 丰富 的 模块 支持 sockets 编程 ， 能 方便 、 快 速 地 开发 分 布 式 应 用 程 
序 。 很 多 大 规模 软件 开发 计划 ， 例 如 Zope. Mnet 及 BitTorrent, Google 都 在 广泛 地 使 
用 它 。 

€ Web 编程 : 应 用 的 开发 语言 ， 支 持 最 新 的 XML 技术。 

e 多 媒体 应 用 : Python 的 PyOpenGL 模块 封装 了 OpenGL 应 用 程序 编程 接口 ， 能 进行 
二 维和 三 维 图 像 处 理 。PyGame 模块 可 用 于 编写 游戏 软件 。 

€ PYMO 引擎 : PYMO 的 全 称 为 Python Memories Off， 是 一 款 运 行 于 Symbian 
S60V3. Symbian3. S60V5. Symbian3. Android 系统 上 的 AVG 游戏 引擎 。 因 其 基 
于 Python 2.0 平台 开发 ， 并 且 适 用 于 创建 秋之 回忆 (memories off) 风格 的 AVG 游 


戏 ， 故 命名 为 PYMO. 


不 只 个 人 用 户 推崇 Python， 企 业 用 户 也 对 Python 青睐 有 加 ， 以 下 是 明星 企业 的 应 用 


项 目 : 


Reddit: 社交 分 享 网 站 ， 最 早 用 Lisp 开发 ， 在 2005 年 转 为 Python。 
Dropbox: 文件 分 享 服务 。 

ZA: 图 书 、 唱 片 、 电 影 等 文化 产品 的 资料 数据 库 网 站 。 

Django: 鼓励 快速 开发 的 Web 应 用 框架 。 

Fabric: 用 于 管理 成 百 上 千 台 Linux 主机 的 程序 库 。 

EVE: 网 络 游戏 EVE 大 量 使 用 Python 进行 开发 。 

Blender: vA C 与 Python 开发 的 开源 3D 绘图 软件 。 

BitTorrent: bt 下 载 软件 客户 端 。 

Ubuntu Software Center: Ubuntu 9.10 版 本 后 自 带 的 图 形 化 包 管理 器 。 
YUM: 用 于 RPM 兼容 的 Linux 系统 上 的 包 管理 器 。 

Civilization IV: 游戏 《文明 4》。 

Battlefield 2: 游戏 《战地 2》。 

Google: 谷歌 在 很 多 项 目 中 用 Python 作为 网 络 应 用 的 后 端 ， 如 Google Groups. 
Gmail、Google Maps 等 ，Google App Engine 支持 Python 作为 开发 语言 。 
NASA: 美国 宇航 局 ， 从 1994 年 起 把 Python 作为 主要 开发 语言 。 
Industrial Light & Magic: 工业 光 魔 ， 乔 治 。 卢 卡 斯 创立 的 电影 特效 公司 。 
Yahoo! Groups: 雅虎 推出 的 群 组 交流 平台 。 

YouTube: 视频 分 享 网 站 ， 在 某 些 功能 上 使 用 到 Python, 

Cinema 4D: 一 套 整 合 3D 模型 、 动 画 与 绘图 的 高 级 三 维 绘图 软件 ， 以 其 高 速 的 运算 
和 强大 的 泻 染 插件 著称 。 

Autodesk Maya: 3D 建 模 软件 ， 支 持 Python 作为 脚本 语言 。 

gedit: Linux 平台 的 文本 编辑 器 。 

GIMP: Linux 平台 的 图 像 处 理 软件 。 

Minecraft: Pi Edition: 游戏 《Minecraft》 的 树 莓 派 版 本 。 

MySQL Workbench: 可 视 化 数据 库 管 理工 具 。 

Digg: 社交 新 闻 分 享 网 站 。 

Mozilla: 为 支持 和 领导 开源 的 Mozilla 项 目 而 设立 的 一 个 非 营利 组 织 。 
Quora: 社交 问答 网 站 。 

Path: 私密 社交 应 用 。 

Pinterest: 图 片 社交 分 享 网 站 。 

SlideShare: 幻灯 片 存 储 、 展 示 、 分 享 的 网 站 。 

Yelp: 美国 商户 点 评 网 站 。 

Slide: 社交 游戏 /应 用 开发 公司 ， 被 谷歌 收购 。 


还 有 很 多 企业 级 的 应 用 这 里 就 不 一 一 列举 了 。Python 适用 于 不 同 的 场合 、 不 同 的 人 群 ， 


是 适应 性 非常 强 的 一 门 语言 。 


Python 3.6.4 开发 环境 配置 


Python 在 PC 三 大 主流 平台 (Windows, Linux 和 OS X) 都 可 使 用 。 在 这 里 只 讲解 
Windows 和 Linux 下 的 开发 环境 配置 。Windows 平台 以 Windows 7 为 例 ，Linux 平台 以 
Debian 8 系统 为 例 。Python 目前 主要 有 两 个 版 本 ，Python 2 和 Python 3. 

目前 ，Python 2 的 最 终 版 本 是 Python 2.7.14，Python 3 的 最 终 版 本 是 Python 3.6.4。 虽 然 
目前 Python 2 和 Python 3 (Wi A HOE MF, [EJ fs Python 3 才 是 未 来 的 方向 。 所 以 本 书 
的 程序 将 以 Python 3 为 主 。 








Fe 在 Windows 系统 中 ， 如 果 同时 安装 了 Python 2 和 Python 3， 这 两 个 程序 的 名 字 都 是 
| Python.exe， 只 能 以 安装 目录 来 区 分 Python 2 和 Python 3 7. Linux 系统 还 好 区 分 ， 可 以 
通过 程序 名 来 区 分 。 











1.2.1 Windows 下 安装 Python 
(1) 打开 Chrome 浏览 器 ， 在 地 址 栏 输入 Python 官网 地 址 www.python.org, Au 1-1 所 


V Welcome to Fythen.or x 


€ > C | @ Python Softwa...ndation [US]. | https//www.python.cra 


Python is a programming lan hat lets you work quickly and 


ntegrate sy 1s more effect ? Learn More 








© Get Started 


Whether you're new to programming or an 


& Download 
Python source code and installers are available 
experienced developer, it's easy to leam and for download for all versions! Not sure which 


use Python. version to use? Check here. 


ers Guide Latest 











O Docs S8 Jobs 





Documentation for Python's standard library, 
alongwith tutorials and guides, are available 


online. 


docs.python.org 


Looking for work or have a Python related 
position that you're trying to hire for? Our 
relaunched community-run job board is the 


place to go. 


jobs. python.org 
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Python 官网 








(2) 单 击 Python 3.6.4, HEA Python 3.6.4 的 下 载 页 面 ， 如 图 1-2 所 示 。 

(3) 按照 安装 的 Windows 系统 选择 下 载 的 安装 文件 。 示 例 系 统 是 Windows 7 64 位 ， 适 
合 当前 Windows 版 本 的 Python 安装 文件 有 3 个 ， 一 个 是 绿色 解压 缩 版 本 ， 一 个 是 正常 的 安 
装 版 本 ， 最 后 一 个 是 网 络 安装 版 本 。 绿 色 安 装 版 本 需要 自行 添加 环境 变量 。 正 常 的 安装 版 本 
安装 更 简单 一 些 。 所 以 这 里 下 载 的 是 Windows x86-64 executable installer. 


he - 0 x 
© Python Release Pythor x 


€ © Q | @ Python sortwa..ndation [US] | https//www.python.org/downlo... tr 





MacOSX64 MacOSX  forMacOSX10.6and 9fba50521dffa9238ce85ad640abaa92 27778156 SIG 




















bit/32-bit later 
installer 
Windowshelp Windows 17cc49512c3a2b876f2ed8022e0afe92 — 8041937 SIG 
file 
Windows x86- Windows for d2fb546fd4b189146dbefeba85e7266b — 7162335 SIG 
64 AMD64/EM64T/x64, 
embeddable not Itanium 
zip file processors 
Windows — for bees746dc6ece6ab49573a9f54bsd0a1 31684744 SIG 
AMD64/EM64T/X64, 
not Itanium 
processors 
Windows x86- Windows for 21525b3di32celScaeGba96d74961bSa 1320128 SIG 
64 web-based AMDG4/EMG4T/x64, 
Installer not Itanium 
processors 
Windowsx86 Windows 15802be75a6246070d85b87b3fa3f83f — 6400788 SIG 


embeddable 
1-2 Python 下 载 


(4) 下 载 完毕 ， 得 到 安装 文件 python-3.6.4-amd64.exe。 以 管理 员 身 份 运行 安装 程序 ， 
开始 安装 Python 3.6， 如 图 1-3 所 示 。 


Install Python 3.6.4 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


È Install Now 
CAUsersWingVippData Local Programs VPythonlPython36 


Includes IDLE, pip and documentation. 
Creates shortcuts and file associations 





> Customize installation 
Choose location and features 











python 


II Install launcher for all users (recommended) 


windows E Add Python 3.6 to PATH 





1-3. 安装 Python 





(5) 单 击 Customize installation 按钮 ， 选 择 Python 安装 组 件 ， 将 全 部 的 组 件 都 选 上 ， 如 
图 1-4 所 示 。 


Optional Features 
Imentation 
Installs the Python documentation file. 
ip 
Installs pip, which can download and install other Python packages. 
VI tcl/tk and IDLE 
Installs tkinter and the IDLE development environment. 
thon test suite 
Installs the standard library test suite. 
launcher | I jor all users (requires elevation) 
Installs the global ‘py’ launcher to make it easier to start Python. 











puthon 
for 
windows [nea JL mem | 
Ed 1-4 选择 Python 组 件 
(6) 单 击 Next 按钮 后 ， 进 入 Python 环境 设置 界面 ， 如 图 1-5 所 示 。 
































Advanced Options 
Jnstall for all users 
IV) Associate files with Python (requires the py launcher) 


[V] Create shortcuts for installed applications 
IV] Add Python to environment variables 
WV Precompile standard library 














El Download debugging symbols 
El Download debug binaries (requires VS 2015 or later) 


Customize install location. 


C:\Program Files\Python36 











python 
windows 








Back Install [( Cance! | 























1-5 Python 安装 环境 


选择 Add Python to environment variables， 将 Python 加 入 系统 环境 变量 中 。 选 择 Install 
for all users， 人 允许 所 有 用 户 使 用 Python。 修 改 一 个 合适 的 安装 目录 。 单 击 Install 按钮 开始 安 
装 Python， 如 图 1-6 所 示 。 


python 
windows 





#1 Python 环境 配置 


Setup was successful 


Special thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 
still be Python for DOS. 


New to Python? Start with the online tutorial and 
documentation. 


See what's new in this release. 





FA 1-6 安装 Python 


CD 单 击 Close 按钮 ， 整 个 安装 程序 完毕 。 验 证 Python 是 否 安 装 成 功 。 单 击 桌面 左下 
角 的 “开始 ”菜单 ， 在 地 址 栏 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 ， 


如 图 1-7 所 示 。 











图 1-7 打开 系统 命令 行 工具 cmdexe 
(8) 执行 命令 ， 验 证 Python， 如 图 1-8 所 示 。 


i" 


ES 


o 












icrosoft Windows [hi 


TA 
2 Users\king python -V ] 


'ython 3.6.4 


:NUsersNking?python -h 








T 
$ 





T 
^ 





6.1.76011 


<c> 2089 Microsoft Corporation。 保 留 所 有 权利 。 


sage: python [option] ... [-c cmd ! -m mod ! file | -] [arg] 

Options and arguments (and corresponding environment variables): 

pb ? issue warnings about str(bytes instance), str(bytearray instance) 
and comparing bytes/bytearray with str. (-bb: issue errors) 

: don't write .pyc files on import; also PYTHONDONTWRITEBYTECODE=x 

program passed in as string (terninates option list) 

debug output from parser; also PYTHONDEBUG-x 

ignore PYTHON* environment variables (such as PYTHONPATH> 

print this help message and exit (also —-help) 

inspect interactively after running script; forces a prompt even 

if stdin does not appear to be a terminal; also PYTHONINSPECT=x 

: isolate Python from the user's environment (implies -E and -s) 

run library module as a script (terminates option list) 

optimize generated bytecode slightly; also PYTHONOPTIMIZE=x 

remove doc-strings in addition to the -0 optimizations 

don't print version and copyright messages on interactive startup 

don't add user site directory to sys.path; also PYTHONNOUSERSITE 

don't imply 'import site' on initialization 





1-8 验证 Python 


由 此 可 见 Python 已 安装 成 功 ， 并 已 将 路 径 添 加 到 环境 变量 。 
“所 有 程序 ”菜单 ， 单 击 Python 3.6 文件 夹 ， 就 可 以 看 到 Python 的 菜单 ， 如 图 1-9 所 


@ Internet Explorer (64 €) 
@ Internet Explorer 

剧 Windows DVD Maker 
‘© Windows Media Center 
回 Windows Media Player 
E Windows Update 

局 Windows (Rina 


Wu SH)1RS 





I Python 3.6 





= IDLE (Python 3.6 64-bit) 
IP Python 3.6 (64-bit) 
(@ Python 3.6 Manuals (64-bit) 
2. Python 3,6 Module Docs (64-bit) 








je 附件 
b 启动 
bP 
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单 击 桌面 左下 角 的 “ 开 








在 安装 Python 的 同时 也 安装 了 Python 自 带 的 IDE——IDLE 和 本 地 的 模块 说 明文 档 。 这 


个 文档 的 说 明 很 详细 ， 一 般 只 需要 看 这 个 文档 就 足够 了 。 











至 此 Python 3 已 在 Windows 上 安装 验证 成 功 ， 可 以 愉快 地 使 用 Python 了 。 


1.2.2 Windows 下 安装 配置 pip 

上 文中 说 过 ，Python 有 几乎 无 限 的 第 三 方 模块 。 如 何 安装 这 些 第 三 方 模块 呢 ? 这 里 就 不 
得 不 说 到 easy. install 和 pip 了 。 

easy install 和 pip 都 是 Python 的 模块 安装 工具 ， 有 点 类 似 于 Debian 系统 的 apt-get, 
Fedora 系统 中 的 yum 或 者 Windows 系统 中 的 QQ 软件 管理 器 ， 都 是 一 键 安装 软件 工具 ， 所 
不 同 的 是 它们 只 负责 安装 Python 模块 。 老 版 本 中 的 Python 只 有 easy install. pip 可 以 认为 是 
easy install 的 高 级 版 本 ， 所 以 pip 和 easy install 任 选 其 一 即 可 ， 建 议 使 用 pip。 在 安装 
Python 时 已 经 选择 了 pip 组 件 (如 图 1-5 所 示 ) ， 就 无 须 再 次 安装 pip 了 ， 直 接 开 始 配置 即 
可 。 

因为 pip 的 服务 器 安装 源 在 国外 ， 基 于 国内 糟糕 的 网 络 环境 ， 使 用 pip 安装 Python 第 三 
方 模块 将 是 一 个 很 痛苦 的 过 程 。 好 在 有 变通 的 方法 ， 在 国内 也 有 pip 的 镜像 源 ， 只 需要 在 pip 
的 配置 文件 中 将 pip 的 安装 源 指 向 国内 的 服务 器 ， 这 个 问题 就 解决 了 。 

根据 pip 的 指南 ，Windows 中 pip 的 配置 文件 是 %HOME%/pip/pip.ini (具体 到 当前 环 
境 ， 本 书 使 用 的 Windows 当前 用 户 是 king， 那 么 配置 文件 位 置 就 是 C:\Users\king\pip\pip.ini) o 
默认 情况 下 pip 文件 夹 和 pip.ini 文件 都 未 被 创建 ， 需 要 自行 创建 。 按 照 指 南 创建 好 文件 夹 和 
文件 后 ，pip.ini 文件 内 容 如 下 : 


[global] 

index-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = http://pypi.hustunique.com/simple 
#index.url = http://pypi.douban.com/simple 








这 里 一 定 是 pip.ini 文件 ， 而 不 是 pip.inikxt。 在 Windows 中 显示 文件 后 级 名 ， 确 认 配 置 文 | 
| (0 ERX. 











修改 后 的 结果 如 图 1-10 所 示 。 











ojo x 
gO- > HEN > REES C) > EA > king » pip SOE pl 
组 织 DaF- 共享 ” nm 新 建文 件 交 i. [eo 

ze i 修改 日 期 um 大 小 


"mg 
M Te 2) pip 2015/11/29 19:10 配置 设置 1KB 


下 
司 pip -记事 本 
SHA RAEO tO) FEV 帮助 (H) 
I[global] 
index-url = https: 
z 4 justuni que. com/simple 
louban. com/simple 








index-url = http://pypi. 
#index-url = http://pypi. d 

















FA 1-10 修改 pip.ini 


图 1-10 中 准备 了 3 个 pip 源 ， 任 选 其 一 即 可 。 选 择 的 方法 就 是 在 不 需要 的 源 地 址 前 面 加 
上 # 符 号 。 下 面 来 验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 
python -m pip install --upgrade pip 
此 命令 的 作用 是 更 新 pip 源 ， 结 果 如 图 1-11 所 示 。 
IBY C\Windows\system32\cmd.exe 


3\Users\king>python -n pip install —upgrade pip 
ollecting pip 





Downloading [packages/9c/32/884ce0852e8a127£ 07 
FT775756 USTTPCU PTU^8.1.2-py2.py3-none-any.uhl (1.2MB 


i 417kB 658kB^/s eta 6:06:62 
i 421kB 871kB/s eta 0:00:01 


图 1-11 更 新 pip 源 
可 以 看 出 ， 配 置 文件 中 的 新 源 已 经 起 作用 了 。 测 试 一 下 pip。 单 击 桌面 左下 角 的 “ 开 
始 ” 菜 单 ， 在 地 址 栏 中 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 。 执 行 命 
令 ， 如 图 1-12 所 示 。 
















licrosoft Windows [ ^ 


权 所 有 «c» 2009 人 pM 保留 所 有 权利 。 E 
: Users \kingypip v 


ip 9.0.1 from c:\program files\python36\lib\site—packages (python 3.6) 


#\sers\king pip -h 

























pip <command> [options] 
Commands = 

install Install packages. 

download Download packages. 

uninstall Uninstall packages. 

freeze Output installed packages in requirements format. 

list List installed packages. 

show Show information about installed packages. 

check Verify installed packages have compatible dependen 
cies. 

search Search PyPI for packages. 

wheel Build wheels from your requirements. 

hash Compute hashes of package archives. 

completion f helper command used for command completion. 

help Show help for connands. 





图 1-12 测试 pip 


至 此 pip 已 完全 配置 完毕 。 


1.2.3 Linux 下 安装 Python 


连接 到 虚拟 机 pyDebian 上 。 连 接 工 具 当 然 是 Putty [f (ssh 远程 连接 工具 有 很 多 ， 这 里 
只 是 选 了 个 顺手 的 ， 使 用 其 他 的 工具 连接 并 不 影响 结果 ) 。 下 面 ， 先 用 Putty 连接 这 个 Linux 
机 器 。 


(1) 双击 Putty 图 标 ， 打 开 Putty.exe， 填 入 IP 地 址 和 端口 信息 ， 如 图 1-13 所 示 。 


















































E Session Basic options for your PuTTY session 
Loggng 
nm Specfy the destination you want to connect to 
Host Name (or IP addess} — Pot 000 
Keyboard 
Bet 192 168.1.80 22 
Features pe 
E Window ORaw OTehet 口 Roon @SSH O Serial 
Appearance 
Dauit Load. save or delete a stored session 
Translation. Saved Sessions — = 
Selection 
‘Colours Ddak 
上 Connection one ind 
Data E 
Proxy - 
Telnet Delete 
Rlogin 
-SSH 
Close window on ext: 
OAways ONever  @ Only on clean ext. 
About Help Cancel 











图 1-13 Putty 连接 设置 


(2) 单 击 Open 按钮 ， 第 一 次 使 用 Putty 登录 Linux 会 有 一 个 安全 警告 提示 ， 如 图 1-14 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 18:fb:7f26:dc:56:29:4e:46:1c:7b:af:d4:85:29:43 
If you trust this host, hit Yes to add the key to 

PuTTY's cache and carry on connecting. 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 

If you do not trust this host, hit Cancel to abandon the 
connection. 





图 1-14 Putty 安全 警告 


(3) 单 击 “ 是 (Y)” 按 钮 ， 进 入 Linux 的 登录 界面 〈 用 户 名 和 密码 就 使 用 默认 的 
king:qwel23) ， 如 图 1-15 所 示 。 





[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
[permitted by applicable law. 

[Last login: Wed Oct 11 2. |5:07 2017 from 192.168.1.99 
king@debians:~$ [] 








图 1-15 登录 Linux 
(4) 输入 用 户 名 和 用 户 密码 后 〈 用 户 密码 不 回 显 ) ， 登 录 到 Linux. 
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Debian Linux 默认 安装 了 Python 2 和 Python 3〈 几 乎 所 有 的 Linux 发 行 版 本 都 默认 安装 
了 Python) . Python 命令 默认 指向 Python 2.7， 验 证 一 下 Python 的 路 径 ， 执 行 命令 : 
whereis Python 


ls -1 /usr/bin/python 
ls -1 /usr/bin/python3 


执行 的 结果 如 图 1-16 所 示 。 
iB kingedebian8 —— 


login as: king 
king8192.168.1.80's password: 





|The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
Ipermitted by applicable law. 

Last login: Wed Oct 11 22:45:07 2017 from 192.168.1.99 
king&debian&:-S[whereis python 
Ipython: /usr/bin/python3.4 /usr/bin/python /usr/bin/python2.7 /usr/bin/python3.4 
lm /usr/lib/python3.4 /usr/lib/python2.7 /usr/lib/python2.6 /etc/python3.4 /etc/p 
lython /etc/python2.7 /usr/local/lib/python3.4 /usr/local/lib/python2.7 /usr/incl 
lude/python2.7 /usr/share/python /usr/share/man/manl/python.l.gz 
king@debian8:~$[1s -1 /usr/bin/python 
lrwxrwxrwx 1 root root 9 9 12 22:17 /usr/bin/py 
king@debians:~$ [Is -1 /usr/bin/python3 
lrwxrwxrwx 1 root root 9 5 月 12 22:17 /usr/bin/py 
king@debians:~$ [] 





























n -> python2.7 

















-> python3.4 











图 1-16 查看 Python 路 径 
再 来 看 看 Python 的 版 本 信息 ， 执 行 命令 : 


python2 -V 
python3 -V 


执行 的 结果 如 图 1-17 所 示 。 


kingdebian8:~$ python2 -V 
— 
kingGdebian8:-$ python3 -V 
——— 


king@debians:~$ [) 





1-17 Python 版 本 信息 


从 图 1-17 中 可 以 看 出 ，Linux 上 安装 的 Python 版 本 与 官网 上 的 最 新 版 本 (Python 3.6.4) 
是 不 同 的 。 这 是 正常 现象 ， 一 般 来 说 Debian Linux 会 使 用 软件 的 最 稳定 版 本 ， 而 Ubuntu 
Linux 会 使 用 软件 的 最 新 版 本 。 
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1.244 Linux 下 安装 配置 pip 


如 同 Windows 中 的 Python 一 样 ，Linux 中 的 Python 同样 需要 一 个 模块 安装 的 管理 工 
具 ， 既 可 以 是 easy_install， 也 可 以 是 pip。 遗 憾 的 是 多 数 Linux 版 本 并 没有 默认 安装 这 个 管理 
工具 (Debian 可 以 使 用 apt-get 安装 大 部 分 的 Python 第 三 方 模块 ， 只 有 极 少数 的 模块 不 能 使 
用 apt-get 安装 ) ， 所 以 得 自己 安装 。 

从 Debian Linux 中 安装 pip， 执 行 命令 : 


su — 
apt-get install python3-pip 


执行 结果 如 图 1-18 所 示 。 
FE 


king&debian& 
密码 : 
root@debian8: /home/king#| apt-get install python3-pip 
正在 读 取 软件 包 列 表 ... 完 
eran ae 
正在 读 取 状态 信息 . 
FARRAR AD ERO HAMERMET. 
libasnl-8-heimdal libgssapi3-heimdal libhcrypto4-heimdal 
libheimbasel-heimdal libheimntlm0-heimdal libhx509-5-heimdal 
libkrb5-26-heimdal librokenl8-heimdal libwind0-heimdal 
tE H ‘apt-get autoremove X )0 8 È (它们 )。 
将 会 安装 下 列 额外 的 软件 包 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl libexpatl-dev 
libfile-fcntllock-perl libpython3-dev libpython3.4-dev libstdc++-4.9-dev 
python3-colorama python3-dev python3-distlib python3-html5lib 
python3-requests python3-setuptools python3-urllib3 python3-wheel 
python3.4-dev 
建议 安装 的 软件 包 : 
debian-keyring g**-multilib g++-4.9-multilib gcc-4.9-doc libstdc++6-4.9-dbg 
libstdc**-4.9-doc python3-genshi python3-lxml python3-ndg-httpsclient 
python3-openssl python3-pyasnl 
下 列 【 新 】 软 件 包 将 被 安装 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl libexpatl-dev 
libfile-fcntllock-perl libpython3-dev libpython3.4-dev libstdc++-4.9-dev 
python3-colorama python3-dev python3-distlib python3-html5lib python3-pip 
python3-requests python3-setuptools python3-urllib3 python3-wheel 
python3.4-dev 
级 了 0 个 软件 包 ， 新 安装 了 23 个 软件 包 ， 要 卸载 0 个 软件 包 ， 有 3 个 软件 包 未 被 升 








$ su a 











FR 66.1 MB 的 软件 包 。 
缩 后 会 消耗 掉 110 MB 的 额外 空间 。 
望 继续 执行 吗 ? i/a [] v 


图 1-18 安装 pip 
输入 su -命令 后 再 输入 系统 root 用 户 的 登录 密码 。 该 命令 的 作用 是 使 用 root 用 户 登 录 系 


统 ， 并 使 用 root 用 户 的 环境 变量 。apt-get install Python 3-pip 的 作用 是 使 用 apt-get 命令 安装 
Python 3-pip 这 个 工具 包 。 最 后 输入 y 确认 执行 命令 ， 开 始 安 装 python-pip。 





A 
级 
mx 
解压 
您 希 











Linux 下 安装 软件 都 必须 有 root 权限 ， 可 以 直接 转换 成 root 用 户 安装 ， 也 可 以 在 sudoers 
| 里 添加 特权 用 户 和 权限 。 
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PRM SAK CSB 2 MO 


安装 Python 3-pip 后 ， 退 出 root 用 户 环境 ， 查 看 pip3 版 本 ， 如 图 1-19 所 示 。 


a king@debiana: ~ 一 口 





=ootedebian8:/home/king# exit ^ 
exit 

epic ae pip3 -V 

ip 1.5.6 from /usr/lib/python3/dist-packages (python 3.4) 
king@debian8:~$ pip3 -h 











Usage: 
pip «command» [options] 


Commands: 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 
wheel Build wheels from your requirements. 
zip DEPRECATED. Zip individual packages. 
unzip DEPRECATED. Unzip individual packages. 
bundle DEPRECATED. Create pybundles. 
help Show help for commands. 


General Options: 
-h, --help Show help. v 


图 1-19 验证 pip 


最 后 还 要 将 pip3 的 更 新 源 改 成 国内 源 。 根 据 pip 的 指南 ， 在 Linux 下 pip 的 配置 文件 是 
$HOME/.pip/pip.conf， 执 行 命令 : 














su = 
cd 

pwd 

mkdir .pip 

cd .pip 

cat > pip.conf << EOF 

[global] 

index-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = http://pypi.hustunique.com/simple 
#index-url = http://pypi.douban.com/simple 

EOF 

cat pip.conf 

exit 


执行 结果 如 图 1-20 所 示 。 
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# king@debians = 


king@debian8:~$ su — ^ 
[rcotGdebians:-£ cd 
mkdir .pip 


cd .pip 
-pipf cat > pip.conf << EOF 





root@debians: 
> [global] 
> index-url = https://pypi.mirrors.ustc.edu.cn/simple 
> $index-url = https://pypi.hustunique.com/simple 
> $index-url = https://pypi.douban.com/simple 
> EOF 
root@debian8:~/.pip$ cat pip.conf 
[global] 
index-url = https://pypi.mirrors.ustc.edu.cn/simple 
index-url = https://pypi.hustunique.com/simple 
index-url = https://pypi.douban.com/simple 

-pipt exit 





图 1-20 修改 pip.conf 








一 般 Windows 中 的 配置 文件 后 缀 名 为 ini，Linux + 40 CHE RA 71 conf. 
一 般 用 户 和 root 用 户 都 可 以 使 用 pip 安装 模块 ， 这 里 只 修改 了 root 用 户 目 录 下 的 配置 文 
件 ， 也 就 是 说 只 有 root 用 户 在 使 用 pip 命令 时 才 会 使 用 国内 的 pip 源 。 而 一 般 用 户 并 没 
有 修改 pip 的 配置 文件 ， 使 用 的 还 是 pip 默认 源 。 











验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 


su- 
python3 -m pip install --upgrade pip 


exit 
结果 如 图 1-21 所 示 。 
e 


kingüdebianB:-$ su - 
LLE 
ootédebian8:-8 python3 -m pip inst. 
Downloading/unpacking pip from [https://mirrors.ustc.edu.cn/pypi/web/packages/b6/ 
|ac/7015eb97dc749283ffdeclc3aBBddb8ae03b8fad0f0e611408f196358da3/pip-9.0.1-py2.py, 
3-none-any .whlimd5-297dbdl6ef53bcef0447d245815f5144 

Downloading pip-9.0.1-py2.py3-none-any.whl (1.3MB): 1.3MB downloaded 
Installing collected packages: pip 





Found existing installation: pip 1.5.6 
Not uninstalling pip at /usr/lib/python3/dist-packages, owned by OS 
Successfully installed pip 
Cleaning up... 
root@debian8:~# ， 


root@debian8:~# exit 
注销 
king@debian8:~$ [] 





1-21 更 新 pip 源 
从 图 1-21 可 以 看 出 pip 源 已 经 开始 起 作用 了 。 下 面 来 测试 一 下 pip， 如 图 1-22 所 示 。 
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P: 





ES pip = 


ip 9.0.1 from /usr/local/lib/python3.4/dist-packages (python 3.4) 
ing@debian8:~$ pip -H 


[orm 





Usage: 


pip «command» [options] 


-$ pip -V 
rom /usr/local/lib/python3.4/dist-packages (python 3.4) 


king@debian8:~$ pip -h 


Usage: 


pip <command> [options] 


Commands: 
install 


download 
uninstall 


freeze 
list 
show 
check 


到 此 pip 已 完全 配置 完毕 。 和 Windows 下 的 pip 不 同 ，Linux 下 的 pip 可 以 使 用 root 安装 


Install packages. 


stall packages. 


Output installed packages in requirements format. 


talled packages. 


Show information about installed packages. 
Verify installed packages have compatible dependen v 





1-22 Wik pip 


模块 ， 也 可 以 使 用 一 般 用 户 来 安装 模块 。 推 荐 使 用 


root 用 户 来 安装 ， 因 为 有 些 模块 安装 需要 root 特权 ， 
root 安装 的 模块 一 般 用 户 都 可 以 使 用 。 


1.2.5 


Linux 下 创建 hello.py。 


1 . Windows 下 创建 hello.py 


CD 单 击 桌面 左下 角 的 “开始 ”| “所 有 程序 ” 
菜单 ， 单 击 Python 3.6 菜单 ， 单 击 IDLE (Python GUD 
菜单 ， 如 图 1-23 所 示 。 


永远 的 hello world 


似乎 所 有 的 编程 语言 
world。Python 也 不 能 免 俗 ， 下 面 分 别 从 Windows 和 


@ Internet Explorer (64 位 ) 
@ Internet Explorer 

@ Windows DVD Maker 
© Windows Media Center 


回 Windows Media Player 
© Windows Update 


一 个 程序 都 是 hello 


A Windows 传真 和 后 
A XPS Viewer 

@ rex 

gi amas 

上 上 Python 3.6 


计算 机 








À IDLE (Python 3.6 64-bit) 








PB Python 3.6 (64-bit) 


控制 面板 


(99 Python 3.6 Manuals (64-bit) 


© Python 3.6 Module Docs (64-bit) 


Lee 
bk em 
b e 


(2) 此 时 打开 的 是 Python Shell 交互 界面 ， 再 单 
击 File | New File 菜单 ， 如 图 1-24 所 示 。 
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设备 和 打包 


a 


帮助 和 支持 


FE 





1-23 打开 IDLE 





Edit Shell Debug Options Window Help 














Yes File Culin Dec 19 2017, 06:54:40) [MSC v. 1900 64 bit (AND64)] +| 
Open... Ctrl+0 "license()" for more information. 

Open Module... Alti 

Recent Files ^ 

Module Browser AlttC 

Path Browser 

Save Ctrl+S 

Save As. Ctrl+Shift+S 


Save Copy As... ALt#ShifttS 


Print Window Ctrl+P 


Close ALA 
Exit CtrliQ 








124 打开 IDE 
(3) 用 IDLE 的 IDE 打开 一 个 新 文件 ， 在 此 新 文件 中 编辑 hello.py， 如 图 1-25 所 示 。 


File Edit Shell Debug Options Window Help 


on win32 
Type "copyright", “credits” or "license()" for more information. 
222. 


LÈ "Lpy - C/Users/king/Desktop/1.py (3.6.4)* 
File Edit Format Run Options Window Help 


#1/usr/bin/env python3 
#-+-coding: utf-8 一 本- 
_-author__ = "hstking hst kingéhotmail. 





if | name main ^': 
print (hello world’) 
print ( 你 好 ,Pythonl ) 





图 1-25 编辑 hellopy 
(4) 单 击 该 IDE 的 File | Save As .… 菜 单 ， 将 已 编辑 好 的 代码 保存 ， 如 图 1-26 所 示 。 


File Edit Shell Debug Options Window Help 

Python 3.6.4 (v3.6.4:dd8eceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)] + 

on win32 司 
"copyright", "credits" or "license()" for more information. 








New File Ctrl 
Open. Ctrl+0 hotmail. con" 
Open Module... ALtHI 
Recent Files 

Module Browser ALtHC 


Path Browser 


Save Ctrl4S 
Save As.. Cerl#Shi ft+S 
Save Copy As... Alt+Shift+S 














Print Window Ctrl+P 


AUA 
Ctrltg 














126 保存 代码 
(5) 选择 保存 文件 位 置 。 这 里 选择 的 是 保存 到 桌面 ， 文 件 名 为 hello.py， 如 图 1-27 所 示 。 
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File Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6.4:dd8eceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AND64)] -| 





wright". "eradits nr linense(l" far a 
LA "Ley - C/Users/king/Desktop/Lpy (3.64)" 

[file Edit Format Run Options Window Help 
#I/ust/bir/ env python3 


























EEF 




















FAREM: [Python files ("py py) 





^ Baccem 





图 1-27 选择 文件 保存 位 置 


(6) 单 击 “ 保 在” 按钮 ， 将 hello.py 保存 到 桌面 。 按 住 Shift 键 ， 同 时 右 击 桌面 空白 
处 ， 如 图 1-28 所 示 。 


file Edit Shell Debug Options Window Help 
ddBeceb, Dec 19 2017, 06:54:40) [MSC v. 1900 64 bit (AND64)] -+ 

Lg hello.py - C/Users/king/Desktop/hello.py (3.6.4) 

file Edit Format Run Options Window Help 

#1/usr/bin/env python3 


#-s-coding: utf-8 -»- 
author | = "hstking hst_kingêhotaail. con’ 





if . name, 
print (| 
print ( 


EEV) 





排序 方式 (O) 
RW) 


sep) 
RASS) 
Rus BU) 




















图 1-28 打开 Windows 命令 行 工具 
(7) 单 击 “ 在 此 处 打开 命令 窗口 ”， 打 开 了 命令 行 工 具 ， 执 行 命令 : 


python hello.py 


18 


执行 结果 如 图 1-29 所 示 。 


file Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6.4:ddBeceb, Dec 19 2017, 06:54:40) 











File Edit Format Run Options Window Help 
fl/usr/bin/env python3 
-*-coding: utf-B 一 本 
_-author__ = "hstking hst_king@hotnail. con’ 








ython!') 


Bil C:\Windows\system32\cmd.exe 





| Nisers NkingNBosktopbpython Te ud -PY 
llo world 


你 好 -Pythong 


C: Nisers NkingNDesktop?,, 

















1-29 执行 hellopy 








Fe 元 程序 的 第 一 行 指定 Python 解释 器 的 位 置 。 在 Windows 中 这 一 行 并 没有 什么 意义 ， 留 下 
| 这 一 行 是 为 了 兼容 Linux。 第 二 行 是 指定 Python 程序 编码 ， 在 Python 3 中 默认 的 字符 纺 
码 就 是 utf-8， 因 此 这 一 行 也 没 多 大 意义 ， 是 为 了 兼容 Python 2 而 保留 的 。 








至 此 ，Windows 下 的 hello.py 执行 完毕 。 


2 . Linux 下 创建 hello.py 
(1) 使 用 Putty 连接 到 Linux， 执 行 命令 : 


mkdir -pv code/python 

cd !$ 

cat » hello.py «« EOF 

#!/usr/bin/env python3 

#-*- coding: utf-8 -*- 

. authon  - 'hstking hst_king@hotmail.com' 


if name == ' main ': 
print("hello world!") 
print("4Kif, Python! ") 
EOF 


执行 结果 如 图 1-30 所 示 。 
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Bon 


ing@debian8:~$ mkdir -pv code/crawler 

kdir: 已 创建 目录 "code" 

kdir: 已 创建 目录 "code/crawler" 

ing@debian8:~$ cd !$ 

d code/crawler 

ingüdebian8:-/code/crawler$ cat > hello.py << EOF 
#!/usr/bin/env python3 

#-*- coding: utf-8 -*- 

f __authon__ = 'hstking hst_kingêhotmail.com' 





if name  -- ' main 
print('Hello world 


l print (' 你 好，Python!') 





EOF 
ing@debian8:~/code/crawlers [] 








1-30 编辑 hellopy 


(2) 然后 在 Putty 中 执行 命令 : 


python hello.py 


执行 结果 如 图 1-31 所 示 。 





a) king@debian8: ~/code/crawler 
king@debian8:~$ mkdir -pv code/crawler 
mkdir: 已 创建 目录 "code/crawler" 
king@debian8:~$ cd !$ 
cd code/crawler 
king@debian8:~/code/crawler$ cat > hello.py << EOF 
> #!/usr/bin/env python3 u 3 
inux 上 默认 安装 了 Python2 和 
> __authon_ = 'hstking hst king&hotmail.com' ` p 
E — 人 Python3， 所 以 这 里 必须 指明 解 
> if name == ' main ': 释 器 的 版 本 --Python3。 
> 


print ("Hello world!") 
> print ("你 好 ，  Python!") 
> EOF 





king@debian8:~/code/crawlers| python3 hello.py 











Python! 
king@debian8:~/code/crawlers Bj 


图 1-31. 执行 hellopy 








这 是 没有 使 用 文本 编辑 工具 编辑 文档 ， 用 的 是 cat 命令 。 如 果 有 条 件 ， 尽 可 能 地 使 用 文 
本 编辑 器 ， 如 vi。 几乎 所 有 的 Linux 版 本 都 默认 安装 了 vi 文本 编辑 器 。 














因为 在 Windows 中 只 安装 了 一 个 Python 3， 而 在 Linux 中 默认 安装 了 Python 2 和 Python | 
3。 所 以 在 Windows 中 运行 Python 3 的 程序 只 需要 执行 命令 Python program.py 就 可 以 
了 。 而 在 Linux 中 运行 Python 3 的 程序 则 需要 指明 解释 器 的 版 本 Python 3， 因 此 命令 应 
该 为 Python 3 program.py. 




















Linux 下 的 hello.py 执行 完毕 。 在 Python 程序 中 有 中 文字 符 时 需要 注意 ， 这 里 的 例子 能 
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正常 显示 是 因为 当前 系统 默认 支持 utf-8 字符 集 。 如 果 系统 不 支持 utf8， 就 需要 将 中 文字 符 
用 encode 转换 成 系统 可 识别 的 字符 集 。 








本 章 小 结 


Python 语言 使 用 范围 很 广 ， 既 能 做 最 简单 的 数学 加 减 运算 ， 也 能 做 高 端的 科学 计算 ; BE 
可 服务 于 企业 、 政 府 、 学 校 ， 也 能 用 于 个 人 。Python 易学 难 精 ， 不 管 是 初学 者 还 是 “高 端 选 
手 ” 都 值得 一 学 、 一 用 。 尤 其 是 对 网 络 的 大 力 支持 ， 使 得 Python 用 于 网 络 编程 具有 很 大 的 优 
势 ， 这 也 是 为 什么 要 用 Python 写 网 络 爬 虫 的 原因 之 一 。 
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本 章 简略 讲解 Python 的 基础 ， 介 绍 Python 与 其 他 编程 语言 的 不 同 之 处 。 在 此 主要 是 与 
C 语言 相 比较 。 如 果 有 C 语言 或 者 Java 语言 的 基础 ， 理 解 本 章 内 容 会 更 加 容易 ， 如 果 没 有 基 
础 也 没关系 ，Python 语言 非常 简单 ， 多 看 两 遍 也 就 会 了 。 


2.1 python 变量 类 型 


Python 的 标准 数据 类 型 只 有 5 个 ， 分 别 是 数字 、 字 符 串 、 列 表 、 元 祖 、 字 典 。 看 起 来 比 
c 语言 的 数据 类 型 少 了 很 多 ， 但 该 有 的 功能 一 个 不 少 。 即 使 C 语言 的 代表 作 链 表 和 二 又 树 ， 
Python 同样 能 应 付 自如 。 


2.1.1 数字 
Python 支持 以 下 3 种 不 同 的 数值 类 型 。 


1. int 类 型 


有 符号 整数 ， 就 是 C 语言 中 所 指 的 整 型 ， 也 就 是 数学 中 的 整数 。Python 3 的 int 与 
Python 2 的 int BSA ANIA]. Python 2 中 有 个 sys.maxint 限制 了 int 类 型 的 最 大 值 ， 超 过 这 个 数 
值 的 将 自动 转换 为 Python 2 的 long 类 型 。Python 3 中 没有 sys.maxint， 但 有 一 个 相似 的 
sys.maxsize， 这 个 数 并 没有 限制 Python 3 中 int 类 型 数 的 极限 。 理 论 上 来 说 Python 3 的 int 类 
型 是 无 限 大 的 。 查 看 当前 系统 下 的 sys.maxsize， 使 用 Putty 登录 Linux， 执 行 命令 : 

python3 

import sys 

print (sys.maxsize) 


执行 结果 ， 如 图 2-1 所 示 。 








login as: king 
|king8192.168.1.80's password: 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


LL 
#linux user:password 

#king:qwe123 

#root:debian8 
(rrrrrrrrrrrrrrrrrrrrrrrrrrrrrerrrrrr 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Thu Jan 18 18:03:47 2018 from 192.168.1.99 
king@debian8:~$ python3 

Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

[GCC 4.9.1] on linux 





+ "credits" or "license" for more information. 






» import sys 
> print (sys.maxsize) 











图 2-1 R int 最 大 值 


与 C 语言 不 同 的 是 ，Python 给 变量 赋值 时 不 需要 预先 声明 变量 类 型 。 八 进 制 数字 、 十 六 


进 制 数字 都 是 属于 int (Long) 类 型 的 。 


长 整数 ， 超 过 sys.maxsize 的 整数 还 是 int 类 型 。 想 赋值 多 大 都 行 ， 只 要 内 存 足 够 大 就 可 


以 。 在 Windows 中 打开 cmd.exe， 执 行 命令 : 


Python 

import sys 

sys.maxsize 

type (999999999999999999999999999999) 


执行 结果 如 图 2-2 所 示 。 





icrosoft Windows [版 本 10. 0. 150681, 
c) 2017 Microsoft Corporation。 保 留 所 有 权利 。 


:\Users\king>python 


ython 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v. 1900 64 bi 


>> sys. maxsize 

223372036854775807 

>> type (999999999999999999999999999999) 
class ’int’> 





图 2-2 Python long int 


2. float 类 型 


浮 点 型 实数 ， 基 本 和 C 语言 的 浮 点 型 一 致 ， 也 就 是 数学 中 带 小 数 点 的 数 ， 不 包括 无 限 小 


数 ， 不 区 分 精度 。 只 要 是 带 小 数 点 的 数 都 可 以 看 作 浮 点 型 数据 。 
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3. complex 类 型 


复数 ， 在 C 语言 中 是 需要 自 定义 的 一 个 数据 类 型 。 在 Python 中 把 它 单独 列 出 来 作为 基 
本 数据 类 型 。 复 数 包含 一 个 有 序 对 ， 表 示 为 a+ bj， 其 中 ，a 是 实 部 ，b 是 复数 的 虚 部 。 

【示例 2-1】 用 一 个 简单 的 程序 showNumType.py 来 显示 Python 的 数字 类 型 。 使 用 Putty 
连接 到 Linux， 执 行 命令 : 

mkdir -pv code/crawler 


cd !$ 
vi showNumType.py 


showNumType.py 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 $-*- coding: utf-8 -*- 


3 author  - 'hstking hst_king@hotmail.com' 
4 
5 class ShowNumType (object) : 
6 def — init (self): 
Ti self.showInt() 
8 self.showLong() 
9 self.showFloat () 
10 self.showComplex () 
11 
12 def showInt (self): 
13 print ("HHHH EZI EAH") 
14 print (" 十 进 制 的 整 型 ") 
15 print ("$-20d,$-20d,$-20d" $(-10000,0,10000)) 
16 print (" 二 进 制 的 整 型 ") 
alg) print("$-20s,$-20s,$-20s" $(bin(-10000),bin(0),bin(10000))) 
18 print ("八进制 的 整 型 ") 
19 print ("%-20s, %-20s,%-20s" %(oct(-10000),oct(0),oct(10000))) 
20 print (" 十 六 进 制 的 整 型 ") 
21 print ("%-20s,%-20s,%-20s" $(hex(-10000),hex(0),hex(10000))) 
22 
23) def showLong (self): 
24 print "HHHHHHEHH ESOS KEA HHHH") 
25 print (" 十 进 制 的 整 型 ") 
26 print("$-20Id,$-20Id, $-20Ld" $(-10000000000000000000, 0, 10000000000000000000) ) 
27 print (" 八 进 制 的 整 型 ") 
28 print ("%-20s, %-20s,%-20s" % (oct (-10000000000000000000) ,oct (0), 
oct (10000000000000000000) ) ) 
29 print (" 十 六 进 制 的 整 型 ") 
30 print ("%-20s,%-20s,%-20s" $(hex(-10000000000000000000),hex(0), 
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hex (10000000000000000000) )) 


31 

32 def showFloat (self): 

33 print ("####HHEEHEE SLANE AA HHHH") 

34 print ("%-20.10f, 3-20.10f,%-20.10f£" $(-100.001,0,100.001)) 
35 

36 def showComplex (self): 

37 print ("HHHH ERAAI HHHH") 

38 print (" 变 量 赋值 复数 var = 3 + 4j") 

39 var = 3 + 4j 

40 print ("var 的 实 部 是 : Sd\tvar 的 虚 部 是 : $a" $(var.real,var.imag)) 
41 

42 

43.if _ name == main Ms 


44 showNum = ShowNumType() 


在 Putty 下 执行 命令 : 


python3 showNumType.py 


得 到 的 结果 如 图 2-3 所 示 。 
D kingad 


kingêdebian8:~/code/crawler$ python shouNumType.py ^ 
DLL ER EE 

十 进 制 的 整 型 

|-10000 70 10000 

二 进 制 的 整 型 

-0b10011100010000  ,0b0 »0b10011100010000 

八进制 的 整 型 

-023420 +0 1023420 

十 六 进 制 的 整 型 

-ox2710 ,0 
444444444 显 示 长 整 型 4 
十 进 制 的 整 型 
-10000000000000000000,0 ,10000000000000000000 

八进制 的 整 型 

-01053071060221172000000L,0 ,01053071060221172000000L 
十 六 进 制 的 整 型 

|-0x8ac7230489e80000L, 0x0 ,0x8ac7230489e80000L 

LLLI ERU E KTITTETTETEET 

|-100.0010000000 ,0.0000000000 ,100.0010000000 
LLL a £ £ I HH nnn 

变量 赋值 复数 var = 3 + 45 

var 的 实 部 是 : 3 var MB: 4 

king@debian8:~/code/crawler$ 

king@debian8:~/code/crawler$ [] v 





,0x2710 














图 2-3 运行 showNumType.py 


showNumType.py 是 Linux 下 以 C++ 风格 编写 的 示范 程序 ， 展 示 如 何 标准 输出 各 种 基本 


数字 类 型 。 


2.1.2 FRR 


在 Python 中 ， 字 符 串 是 被 定义 为 在 引号 (或 双 引 号 ) 之 间 的 一 组 连续 的 字符 。 这 个 字符 


可 以 是 键盘 上 的 所 有 可 见 字符 ， 也 可 以 是 不 可 见 的 “ 回 车 符 ”“ 制 表 符 ” 等 。 
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字符 串 的 操作 方法 很 多 ， 这 里 只 选 出 最 典型 的 几 种 。 


(1) 


(2 


VY 


(3 


— 





字符 串 大 小 写 转换 


Slower): 字母 大 写 转换 成 小 写 。 

S.upper(): 字母 小 写 转换 成 大 写 。 

S.swapcase(): 字母 大 写 转换 或 小 写 ， 小 写 转 换 成 大 写 。 
S.title): 将 首 字母 大 写 。 


字符 串 搜索 、 蔡 换 


S.find(substr, [start, [end]]): 返回 S 中 出 现 substr 的 第 一 个 字母 的 标号 ， 如 果 S 中 没 
有 substr 就 返回 -1，start 和 end 的 作用 就 相当 于 在 S[start:end] 中 搜索 。 

S.count(substr, [start [end]]) : 计算 substr 在 S 中 出 现 的 次 数 。 

S.replace(oldstr, newstr, [count]); 把 S 中 的 oldstr 44% newstr, count 为 替换 次 
数 。 

S.strip([chars]): 把 S 左右 两 端 chars 中 有 的 字符 全 部 去 掉 ， 一 般 用 于 去 除 空格 。 
S.lstrip([chars]): 把 S 左 端 chars 中 所 有 的 字符 全 部 去 掉 。 

S.rstrip([chars]): 把 S 43% chars 中 所 有 的 字符 全 部 去 掉 。 


字符 串 分 割 、 组 合 

S.split([sep, [maxsplit]]): 以 sep 为 分 隔 符 ， 把 S 分 成 一 个 list, maxsplit 表示 分 割 的 
次 数 ， 默 认 的 分 割 符 为 空白 字符 。 

S.join(seq): 把 seq 代表 的 序列 一 一 字符 囊 序列 ， 用 S 连接 起 来 。 


字符 串 编码 、 解 码 


S.decode([encoding]): 将 以 encoding 编码 的 S 解码 成 unicode 编码 。 
S.encode([encoding]): 将 以 unicode 编码 的 S 编码 成 encoding，encoding 可 以 是 
gb2312、gbk、big5……- 

字符 串 测试 

S.isalpha(): S 是 否 全 是 字母 ， 至 少 有 一 个 字符 。 

S.isdigit): S 是 否 全 是 数字 ， 至 少 有 一 个 字符 。 

S.isspace(): S 是 否 全 是 空白 字符 ， 至 少 有 一 个 字符 。 

S.islower(): S 中 的 字母 是 否 全 是 小 写 。 

S.isupper(): S 中 的 字母 是 否 全 是 大 写 。 

S.istitle): S 是 否 是 首 字母 大 写 的 。 


【示例 2-2】 编 写 一 个 showStrOperation.py 来 实验 一 下 。 这 次 在 Windows 下 以 IDLE 为 
IDE 来 编写 程序 。showStrOperation.py 代码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding: utf-8 -*- 
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T BA Windows 默认 的 中 文字 符 编码 是 SGBK， 所 以 …" 
author = "hstking hst king@hotmail.com' 


def strCase(): 
"字符 串 大 小 写 转换 " 
print ("演示 字符 串 大 小 写 转换 ") 
print (" 演 示 字 符 串 s 赋值 为 : ' ThIs is a PYTHON '") 
S=" ThIs is a PYTHON ' 
print (" 大 写 转换 成 小 写 ，\tS.lower() \t= $s" $(S.lower())) 
print ("小 写 转换 成 大 写 : \tS.upper() \t= $s" %(S.upper())) 
print ("大 小 写 转换 : \t\tS.swapcase() \t= %s" %(S.swapcase())) 
print (" 首 字 母 大 写 : \t\tS.title() \t= $s" $(S.title())) 
print('\n') 


def strFind(): 
"字符 串 搜索 、 蔡 换 " 
print (" 演 示 字 符 串 搜索 、 蔡 换 等 ") 
print (" 演 示 字 符 串 s 赋值 为 : ' ThIs is a PYTHON '") 
S=" ThIs is a PYTHON ' 
print ("字符 串 搜 索 : \t\tS.find("is') \t= $s" $(S.find('is'))) 
print (" 字 符 串 统计 : \t\tS.count('s') \t= $s" $(S.count('s'))) 
print ("-7#H GR: \t\tS.replace('Is','is') = $s" %(S.replace('Is','is'))) 
print (" 去 左右 空格 : \t\tS.strip() \t=#%s#" %(S.strip())) 
print ("去 左边 空格 : \t\tS.lstrip() \t=#%s#" $(S.lstrip())) 
print ("去 右边 空格 : \t\tS.rstrip() \t=#%s#" %(S.rstrip())) 
print('\n') 


def strSplit(): 

"字符 串 分 割 、 组 合 " 

print ("演示 字符 串 分 割 、 组 合 ") 

print ("ARF E s 赋值 为 : ' ThIs is a PYTHON '") 

S$ = ' This is a PYTHON ' 

print (" 字 符 串 分 割 : \t\tS.split() \t= $s" $(S.split())) 

print ("字符 串 组 合 1: '£'.join(['this','is','a','python']) \t= %s" 
$('#'.join(['this','is','a','python']))) 

print ("字符 串 组 合 2: '$'.join(['this','is','a','python']) \t= %s" 
$('$'.join(['this','is','a','python']1))) 

print ("S$ BAS 3: ' '.join(['this','is','a','python']) \t= $s" $(' 
'.join(['this','is','a', 'python']1))) 

print('\n') 


def strTest(): 
"字符 串 测试 " 
print ("演示 字符 串 测试 ") 
print ("演示 字符 串 s 赋值 为 : 'abcd'") 
S1 = "abcd" 
print ("测试 S.isalpha() = $s" $(Sl.isalpha())) 
print ("Wik S.isdigit() = $s" $(Sl.isdigit())) 
print ("测试 S.isspace() = $s" $(Sl.isspace())) 
print ("测试 S.islower() = $s" %(S1.islower())) 
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print ("测试 S.isupper() = $s" $(Sl.isupper())) 
print ("Mix S.istitle() = $s" $(Sl.istitle())) 


strCase() 
strFind() 
strSplit() 
strTest () 


打开 Windows 的 命令 行 工 具 (cmd.exe) ， 执 行 命令 : 


python showStrOperation.py 


得 到 的 结果 如 图 2-4 所 示 。 


File Edit Format Run Options Window Help 
Surma enw python3 
coding: utf-8 — n 
文字 符 编 到 是 cK， 所 以 …，， 
hor__ = 'hstking hstkingéhotnmail. con’ 


ThIs is a PYTHON '") 


s” X (S. lower ())) 
X(S. upper Q)) 
X (S. swapcase())) 
pare: MM. tithe) Me Ns" Xi title ())) 

















-countC s!) = 2 
.replace('Is','is') = This is a PYTHON 





nanan 





.stripO his is a PYTHON 条 
-IstripO his is a PYTHON # 
-rstripC> This is a PYTHONS 
npn 
ET. This is a PYTHON ' 
S.split© = ['ThIs', ‘is’, 'a', "PYTHON' ] 
E W „joint l’ this’ ,^ is^," a^," python’ 1) = thististattpython| 
FEN r$ .joinCU this’ ^ is','a'," python’ 1) = this$isSa$python| 
H 合 3， i + JjoinCE^ this’ ,’ is^; 'a',' python" D = this is a python| 


试 s.islover(》 = True 
试 S .isupper(》 = 
试 s .istitle(》 = False 











2 Users \king\Desktop> 


图 2-4 运行 showStrOperation.py 


与 showNumType.py 不 同 ，showStrOperation.py 是 在 Windows 下 以 C 语言 的 风格 编写 
的 。 实 际 上 这 两 个 程序 并 没有 什么 区 别 ， 使 用 哪 种 风格 视 个 人 习惯 而 定 。 








字符 串 也 可 以 看 成 一 个 不 可 修改 的 字符 列表 ， 所 以 大 部 分 用 来 操作 列表 的 方法 〈 不 涉及 
L 修改 列表 元 素 的 ) 同样 可 以 用 来 操作 字符 串 。 
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2.4.8 ”列表 

列表 是 Python 最 常用 的 变量 类 型 。 列 表 是 一 个 可 变 序列 ， 序 列 中 的 每 个 元 素 都 分 配 一 个 
数字 ， 即 它 的 位 置 ， 或 者 叫 索引 。 第 一 个 索引 是 0， 第 二 个 索引 是 1， 以 此 类 推 . 列表 中 的 元 
素 可 以 是 数字 、 字 符 串 、 列 表 、 元 组 、 字 典 …… Python 使 用 中 括号 [ ] 来 解析 列表 ， 将 一 个 
变量 赋值 为 空 列表 ， 很 简单 ， 执 行 命令 var = [] 就 可 以 了 。 

列表 的 基本 操作 很 简单 ， 一 般 是 创建 列表 、 插 入 数据 、 追 加 数据 、 访 问 数据 、 删 除数 
据 。 下 面 实验 一 下 。 

创建 列表 ， 直 接 赋值 即 可 。 访 问 列表 ， 只 需要 列表 名 和 列表 中 元 素 的 下 标 即 可 。 创 建 一 
个 字符 的 列表 ， 执 行 命令 : 


Ll = ['a!','b','c',' d','e'] 





L1[0] 

L1[1] 

L1[2] 

L1[4] 

L1[5] 

执行 的 结果 如 图 2-5 所 示 。 
这 king@debian8: ~ - Dn x 
#root:debian& a 


LLLLLLILILLLLITLELILLLTTTLELTITILT LIII] 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Thu Jan 18 18:06:49 2018 from 192.168.1.99 
king@debian8:~$ python 

Python 2.7.9 (default, Jun 29 2016, 13:08:31) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 


>>>] Ll = ['a', 'b', 'c', 'd', *e']] 
>>> LITOT 


‘gt 
>>> L1[1] 








b 
>>> L1[2] 


‘ot 
>>> L1[4] 
tet 
>>> L1[5] 
Traceback (most recent call last): 
File "<stdin>", line 1, in «module» 
IndexError: list index out of range 
>>> 目 Y 


图 2-5 创建 列表 

如 图 2-5 所 示 ， 如 果 访 问 超出 范围 ，Python 3 则 会 抛 出 一 个 异常 mdexError。 如 果 只 是 创 
建 一 个 纯 字 符 的 列表 ， 无 须 逐 个 输入 字符 ， 执 行 命令 LI = list(abcde) 即 可 。 

插入 、 追 加 、 删 除 列表 数据 也 很 简单 ， 执 行 命令 : 


L1.insert (0,0) 
L1.insert (-1,100) 
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L1.append('python') 
L1.pop (3) 
L1.pop () 


执行 结果 如 图 2-6 所 示 。 





[0, 'a', 'b', 'c', 'd', 'e'] 
>>> L1.insert(-1,100) 


(0, 'a', 'b', 'c', 'd', 100, 'e'] 
>>> L1.append('python' 


[0, 'a', 'b', 'c', 'd', 100, 'e', 'python'] 
>>> L1.pop(3) 


[0, 'a', 'b', 'd', 100, 'e', 'python'] 








图 2-6 插入 、 追 加 、 删 除数 据 


对 列表 最 常用 的 操作 是 列表 分 片 。 分 片 可 以 简单 地 理解 为 将 一 个 列表 分 成 几 块 。 它 的 操 
作 方 法 是 list[index1:index2[:step]]。 先 创建 一 个 较 长 的 数字 列表 做 这 个 分 片 示例 ， 执 行 命令 : 


ae c qu 

for i in xrange(0,101): 
L2.append(i) 

L2 


这 样 就 创建 了 一 个 包含 0-100 FE 101 个 数字 的 列表 ， 如 图 2-7 所 示 。 
E 


>>> L2 = (] 
>>> for i in xrange(0, 
L2.append(i) 





图 2-7 创建 数字 列表 
列表 切片 其 实 和 访问 列表 元 素 很 相似 。 例 如 ， 要 访问 列表 L2 的 第 10 个 元 素 ， 直 接 用 
L2[10] 就 可 以 了 。 如 果 要 访问 列表 L2 的 第 10 到 20 个 元 素 呢 ? 很 简单 ，L2[10:21] 就 可 以 了 。 
至 于 list[indexl:index2[:step]] PI] step 是 步 长 。 实 验 一 下 就 清楚 了 ， 执 行 命令 : 
L2[0:21] 
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L2[21:41] 

L2[81:101] 
mood 
L2[0:21:2] 
T2021] 
L2[0:21:4] 
L2[0:21:5] 


执行 结果 如 图 2-8 所 示 。 


, 35, 40) 


3, 94, 95, 96, 97, 95, 95, 100 


5, 1s, 20; 





图 2-8 列表 分 片 


【示例 2-3】 写 个 简单 的 程序 showListpy 验证 一 下 。 打 开 Putty 连接 到 Linux, 47 
4 

cd code/crawler 

vi showList.py 


showList.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 ł-*- coding; utf-8 -*- 
3 author  - 'hstking hst_king@hotmail.com' 


4 

5 class ShowList (object): 
6 def ^ init (self): 
1i self.L1 - [] 

8 self.L2 - [] 

3 


10 self.createList()  ## 创 建 列表 
11 self.insertData() dg 
12 self.appendData()  # 追 加 数据 
13 self.deleteData() Jp 
14 self.subList() # 列 表 分 片 
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16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
2 
28 
29 
30 
31 
22 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
Si 
52 
53 
54 
55 
56 
SR 
58 


def createList (self): 
print (" 创 建 列表 : ") 
print("L1 = list('abcdefg')") 
self.L1 = list('abcdefg') 
print("L2 - []") 
print("for i in xrange(0,10):") 
print ("\tL2.append(i)") 
for i in range(0,10): 

self.L2.append(i) 

print ("L1 = "), 
print (self.L1) 


print("L2 = "), 
print (self.L2) 
print ('\n') 


def insertData(self): 
print ("插入 数据 ") 
print ("L1 列表 中 第 3 个 位 置 插 入 数字 100， 执 行 命令 : L1.insert (3,100)") 
self.L1l.insert (3,100) 
Print ("Ll1 = "), 
print (self.L1) 
print ("L2 列表 中 第 10 个 位 置 插入 字符 串 'python'， 执 行 命令 : L2.insert (10, 'python!) ") 
self.L2.insert(10,'python') 
print("L2 = "), 
print (self.L2) 
print ('\n') 


def appendData (self): 
print ("追加 数据 ") 
print ("L1 列表 尾 追加 一 个 列表 [1, 2, 3] ， 执 行 命令 L1.append([1,2,3]") 
self.L1.append([1,2,3]) 
print("L1 = "), 
print (self.L1) 
print ("L2 RBE A ('a', 'b', 'c'), df L2.append(('a', 'b', 'c')") 
self.L2.append(('a',''b','c')) 
print("L2 - "), 
print (self.L2) 
print ('\n') 


def deleteData (self): 
print ("删除 数据 ") 
print ("HER L1 的 最 后 一 个 元 素 ， 执 行 命令 L1 .pop () ") 
self.L1.pop() 


59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
vat 
72 
13 
74 
1S 


print ("L1 ="), 

print (self.L1) 

print ("WBR L1 的 第 1 个 元 素 ， 执 行 命令 L1 .pop (0) ") 
self.L1.pop(0) 

print("Ll = "), 

print (self.L1) 

print (" 删 除 L2 的 第 4 个 元 素 ， 执 行 命令 L2.Pop (3) ") 
self.L2.pop(3) 

print("L2 - "), 

print (self.L2) 

print ('\n') 


def subList (self): 
print ("列表 分 片 ") 
print (" 取 列表 L1 的 第 3 到 最 后 一 个 元 素 组 成 的 新 列表 ， 执 行 命令 L1[2:]") 
print (self.L1[2:]) 
print (" 取 列 表 L2 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执行 命令 


|) 


76 
TT 
78 
79 
80 
81 
82 


print (self.L2[1:-1:2]) 
print ("\n') 


if ^ name == ' main ': 
print (" 演 示 列 表 操 作 : \n") 
sl = ShowList() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 showList.py. showList.py 显示 了 Python 列表 的 


基本 功能 


列表 的 创建 、 插 入 、 追 加 、 分 片 等 。 执 行 命令 : 





Python3 showList.py 


得 到 的 结果 如 图 2-9 所 示 。 
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P king@debian8: ~/code/crawler 
king@debian8:~/code/crawler$[python3 showList.py 


演示 列表 操作 : 














创建 列表 : 

Ll = list('abcdefg') 

12 = [] 

for i in xrange(0,10): 
L2.append(i) 

Ll = 

[*a^, "bt, ter, % 

12 = 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 





插入 数据 

L1 列 表 中 第 3 个 位 置 插入 数字 100， 执 行 命令 ， Li.insert (3,100) 

L1 = 

['a', 'b', 'c', 100, 'd', ‘et, 'f', 'g'] 

L2 列 表 中 第 10 个 位 置 插入 字符 串 'python'， 执 行 命令 ; L2.insert (10, 'python') 
L2 = 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'python'] 


追加 数据 

L1 列 表 尾 追加 一 个 列表 [11,2,3]， 执 行 命令 Ll1.append([1,2,3) 

li = 

['a', 'b', 'c', 100, 'd', 'e', '£', 'g', [1, 2, 3)) 

L270 # FB iB IM — ^ 3c 8. (tat, bt, tct), RAT MH  L2.append(('a!, 'b','c!) 
L2 = 

I0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'python', ('a', 'b', 'c')] 


删除 数据 

删除 L1 的 最 后 一 个 元 素 ， 执 行 命令 L1.pop() 

Ll = 

['a', 'b', 'c', 100, 'd', 'e', '£', 'g'] 

B Li MIA TR, WT 411.pop 0) 

Li = 

['b', 'c', 100, 'd', 'e', 'f', 'g'] 

删除 L2 的 第 4 个 元 素 ， 执 行 命令 L2.pop(3) 

L2 = 

[0, 1, 2, 4, 5, 6, 7, 8, 9, ‘python’, ('a', 'b', 'c')) 


列表 分 片 

取 列 表 L1 的 第 3 到 最 后 一 个 元 素 组 成 的 新 列表 ， 执 行 命令 L112:] 

[100, 'd', 'e', 'f', 'g'] 

取 列 表 L2 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执 行 命令 L2[1:-1:2] 
(1, 4, 6, 8, 'python'] 








kingédebian8:-/code/crawler$ 

图 2-9 运行 showListpy 

列表 还 有 很 多 其 他 的 函数 和 操作 方法 ， 如 有 兴趣 可 以 参考 官方 文档 和 Google。 列 表 和 元 

组 非常 相似 ， 掌 握 了 列表 ， 就 基本 掌握 了 元 组 。 列 表 是 Python 编程 中 必 不 可 少 的 一 种 数据 类 
型 。 


2.1.4 元 组 


Python 的 元 组 与 列表 非常 相似 ， 不 同 之 处 在 于 元 组 的 元 素 是 不 可 修改 的 ， 是 一 个 不 可 变 
序列 (意思 是 赋值 后 就 无 法 再 修改 了 。 同 列表 一 样 ， 可 以 用 序列 号 来 访问 ， 有 点 类 似 C 语言 
中 的 常量 ) 。 列 表 使 用 [] 声 明 ， 元 组 使 用 0 声明 。 
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元 组 创建 很 简单 ， 只 需要 在 括号 中 添加 元 素 ， 并 使 用 逗号 隔 开 即 可 。 创 建 一 个 空 元 组 ， 
执行 命令 var = 0。 因 为 元 组 中 元 素 是 不 可 修改 的 ， 所 以 列表 中 的 操作 方法 insert. append, 
pop 等 操作 对 于 元 组 都 没有 。 又 因为 元 组 与 列表 的 高 度 相似 性 ， 列 表 的 切片 对 元 组 是 完全 适 
用 的 (切片 并 不 改变 原始 数据 ) ， 所 以 只 需要 记 住 一 个 原则 ， 列 表 中 修改 元 素 值 的 操作 元 组 
都 不 可 用 ， 列 表 中 不 修改 元 素 值 的 操作 元 组 基本 上 都 可 以 用 。 

元 组 和 列表 是 可 以 互相 转换 的 。 使 用 tuplellisb 可 以 将 一 个 列表 转换 成 元 组 ， 反 过 来 使 用 
list(tuple) 也 可 以 将 一 个 元 组 转换 成 列表 。 


【示例 2-4】 编 写 一 个 showTuple 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 





vi showTuple.py 


showTuple.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 $-*- coding; utf-8 -*- 


. author = 'hstking hst_king@hotmail.com' 


3 

4 

5 class ShowTuple (object) : 

6 def _ init (self): 

7 self.Tl = () 

8 self.createTuple() # 创 建 元 组 

9 self.subTuple(self.T1) ## 元 组 分 片 


10 self.tuple2List(self.T1) # 元 组 、 列 表 转 换 

12 def createTuple(self) : 

13 print (" 创 建 元 组 : ") 

14 print ("T1 = (1,2,3,4,5,6,7,8,9,10)") 

15 self.Tl = (1,2,3,4,5,6,7,8,9,10) 

16 print("Tl ="), 

aly} print (self.T1) 

18 print ('\n') 

19 

20 def subTuple (self,Tuple): 

21! print ("元 组 分 片 : ") 

22 print (" 取 元 组 T1 的 第 4 个 到 最 后 一 个 元 组 组 成 的 新 元 组 ， 执 行 命令 T1[3:]") 

23 print (self.T1[3:]) 

24 print (" 取 元 组 T1 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 2， 执行 命令 
TL 

25 print (self.T1[1:-1:2]) 

26 print ('\n"') 

21 

28 def tuple2List (self, Tuple) : 


35 


29 print (" 元 组 转换 成 列表 : ") 


30 print ("显示 元 组 ") 

3 ippeinte(umi my 

32 print (self.T1) 

33 Print (" 执 行 命令 L2 = list(T1)") 

34 L2 = list(self.T1) 

35 print (" 显 示 列 表 ") 

36 print("L2 ="), 

37 print (L2) 

38 print ("列表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 。 执 行 命令 L2.append (100) 
tuple (L2)") 

39 L2.append (100) 

40 print ("显示 新 元 组 ") 

41 print (tuple (L2)) 

42 

43 

44 if name == ' main "': 


45 st = ShowTuple() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 showTuple.py. showTuple.py 显示 了 Python 
元 组 的 创建 、 分 片 和 转换 。 执 行 命令 : 


Python3 showTuple.py 


得 到 的 结果 如 图 2-10 所 示 。 








ingedebian8:~/code/crawlerS [pythons showTuple.py 











JETA: 

1 = (1,2,3,4,5,6,7,8,9,10) 
1 = 
(1，2，3，4，5，6，7，8，9，10) 


TARH: 

元 组 ?1 的 第 4 个 到 最 后 一 个 元 组 组 成 的 新 元 组 ， 执 行 命令 T1[3:] 
(4, 5, 6, 7, 8, 9, 10) 

元 组 ?1 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 2， 执 行 命令 T1[1:-1:2] 
(2, 4, 6, 8) 


:+ 2, 3, 4, 5, 6, 7, 8, 9, 10) 
fr L2 = list(T1) 
» 


[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

刘表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 。 执行 命令 L2.append(100) tuple(L2) 
示 新 元 组 

(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100) 

ing@debian8 :~/code/crawler$ 








图 2-10 运行 showTuple.py 


因为 元 组 和 列表 高 度 相 似 ， 绝 大 部 分 场合 都 可 以 用 列表 来 蔡 代 元 组 。 
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Fe =] 元 组 和 列表 的 不 同 仅 在 于 一 个 可 修改 ， 一 个 不 可 修改 。 其 他 方面 几乎 没有 什么 区 别 。 由 
于 元 组 不 可 修改 的 特性 ， 一 般 在 函数 中 需要 返回 多 个 返回 值 时 ， 可 以 将 这 些 返回 值 放 入 
一 个 元 组 中 返回 。 








2.1.5 ”字典 


从 某 种 意义 上 来 说 ， 字 典 和 列表 也 很 相似 。 字 典 使 用 的 是 {}， 列 表 使 用 的 是 []， 元 素 分 
隔 符 都 是 逗号 。 所 不 同 的 是 列表 的 索引 只 是 从 0 开始 的 有 序 整 数 ， 不 可 重复 ， 而 字典 的 索引 
实际 上 在 字典 里 应 该 叫 键 。 虽 然 字典 中 的 键 和 列表 中 的 索引 一 样 是 不 可 重复 的 ， 但 键 是 无 序 
的 ， 也 就 是 说 字典 中 的 元 素 是 没有 顺序 而 言 的 。 字 典 中 的 元 素 任意 排列 都 不 影响 字典 的 使 
用 ， 所 以 也 就 无 法 用 字典 名 + 索引 号 的 方式 来 访问 字典 元 素 。 

字典 的 键 可 以 是 数字 、 字 符 串 、 列 表 、 元 组 …… 几 乎 什么 都 可 以 ， 一 般 用 字符 串 来 做 
键 ， 键 与 键 值 用 冒号 分 割 。 在 列表 中 通过 索引 来 访问 元 素 ， 而 在 字典 中 是 通过 键 来 访问 键 值 
的 。 因 为 字典 按 “ 键 ” 寻 值 而 不 同 于 列表 的 按 “ 索 引 ” 寻 值 ， 所 以 字典 的 操作 方法 与 列表 稍 
有 区 别 。 

首先 创建 一 个 字典 试验 一 下 ， 执 行 命令 : 


ironMan = ('name':'tony stark', 'age':47,'sex':'male'} 


这 样 就 建立 了 一 个 简单 的 IronMan 字典 。 因 为 字典 的 键 值 是 无 序 的 ， 所 以 插入 一 个 数据 
无 须 insert 之 类 的 方法 。 直 接 定义 即 可 ， 执 行 命令 : 

ironMan['college'] = 'NYU' 

ironMan['Nation'] = 'America' 

如 需 添 加 资料 ， 继 续 添加 即 可 。 如 果 发 现 资料 有 误 ， 修 改 字典 ， 同 样 也 是 直接 定义 ， 执 
行 命令 : 

ironMan['college'] = 'MIT' 

如 果 要 删除 某 个 元 素 ， 可 以 使 用 del fiz. del 命令 可 以 理解 为 取消 分 配给 变量 的 内 存 空 
间 。 执 行 命令 : 

del ironman['Nation'] 

del 命令 不 只 是 可 以 删除 字典 的 元 素 ， 类 似 字典 元 素 、 用 户 定 义 的 变量 都 可 以 用 del 来 删 
除 。 它 可 以 删除 数字 变量 、 字 符 串 变量 、 列 表 、 元 组 、 字 典 等 。 

字典 还 有 一 些 独特 的 操作 。 以 下 是 字典 中 最 常用 的 操作 : 

€ dict.keys(): 返回 一 个 包含 字典 所 有 key 的 列表 。 

€  dictvalues(): 返回 一 个 包含 字典 所 有 value 的 列表 。 

€  dictitems): 返回 一 个 包含 所 有 ( 键 , 值 ) 元 组 的 列表 。 
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©  dictclear: 删除 字典 中 所 有 的 元 素 。 
€  dictget(key): 返回 字典 中 key 所 对 应 的 值 。 


【示例 2-5】 编 写 一 个 showDict 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 


cd code/crawler 
Vi showDict.py 


showDict.py 的 代码 如 下 : 


1 #!/usr/bin/env python 
2 #=*= coding: utf-8 一 “一 
3 author = 'hstking hst_king@hotmail.com' 


4 
5 class ShowDict (object): 

6 "" "该 类 用 于 展示 字典 的 使 用 方法 “"" 

T def _init (self): 

8 self.spiderMan = self.createDict() # 创 建 字典 
9 self.insertDict(self.spiderMan) # 插 入 元 素 


10 self.modifyDict(self.spiderMan) # 修 改元 素 

11 self.operationDict(self.spiderMan) # 字 典 操作 

12 self.deleteDict(self.spiderMan) # 删 除 元 素 

Hs 

14 def createDict (self): 

15 print (" 创 建 字典 :") 

16 print ("执行 命令 spiderMan = {'name':'Peter 
Parker','sex':'male','Nation':'Americ', 'college':'MIT')") 

don spiderMan = ('name':'Peter 
Parker','sex':'male','Nation':'Americ', 'college':'MIT'} 

18 self.showDict (spiderMan) 

19 return spiderMan 

20 

21 def showDict (self, spiderMan) : 

22 print ("显示 字典 ") 

23 print ("spiderMan = "), 

24 print (spiderMan) 

25 print ("\n') 

26 

gt def insertDict (self,spiderMan): 

28 print ("字典 中 添加 键 age， 值 为 31") 

29 print ("执行 命令 spiderMan['age'] = 31") 

30 spiderMan['age'] = 31 

31 self.showDict (spiderMan) 

32 


33 def modifyDict (self, spiderMan) : 
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print ("字典 修改 键 'college' 的 值 为 'Empire State University'") 


print ("执行 命令 spiderMan['college'] = 'Empire State University'") 


spiderMan['college'] = 'Empire State University' 


self.showDict (spiderMan) 


def operationDict (self, spiderMan) : 


print ("字典 的 其 他 操作 方法 ") 
print HGHHHHHHHHEHHEHHEHHRHHHHRHIR) 


print ("显示 字典 所 有 的 键 ，keyList = spiderMan.keys()") 


keyList = spiderMan.keys() 
print ("keyList = "), 

print (keyList) 

print ("\n') 


print ("显示 字典 所 有 键 的 值 ，valueList = spiderMan.values()") 


valueList = spiderMan.values() 
print ("valueList = "), 
print (valueList) 


print ('\n') 


print (" 显 示 字 典 所 有 键 和 值 的 元 组 ，itemList = spiderMan.items()") 


itemList = spiderMan.items() 
print("itemList - "), 

print (itemList) 

print('Mn') 

print (" 取 字典 中 键 为 college 的 值 , college = 
college = spiderMan.get('college') 

print ("college = %s" %college) 

print ('\n') 


def deleteDict (self, spiderMan) : 
print ("删除 字典 中 键 为 Nation fff") 
print ("执行 命令 del(spiderMan['Nation'])") 
del (self.spiderMan['Nation']) 
self.showDict (spiderMan) 
print ("清空 字典 中 所 有 的 值 ") 
print ("执行 命令 spiderMan.clear()") 
self.spiderMan.clear() 
self.showDict (spiderMan) 
print ("删除 字典 ") 
print ("执行 命令 del(spiderMan)") 
del (spiderMan) 
print ("显示 spiderMan") 
try: 

self.showDict (spiderMan) 


spiderman.get ('college')") 
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tt except NameError: 

78 print ("spiderMan 未 被 定义 ") 
了 9 

80 


81 if name == '_main_': 
82 sd = ShowDict () 


得 到 的 结果 如 图 2-11 所 示 。 





king@debian8: ~/code/crawler 








king8debian8:-/code/crawleri[ python3 showDict .py 

创建 字典 : 

执行 命令 spiderMan = {'name':'Peter Parker','sex':'male','Nation':'Americ','col 
显示 字典 

spiderMan = 

('Nation': 'Americ', 'sex': 'male', ‘college’: 'MIT', 'name': ‘Peter Parker') 


字典 中 添加 键 age， 值 为 31 

执行 命令 spiderManf'age'] = 31 

显示 字典 

spiderMan = 

('Nation': 'Americ', 'sex': 'male', ‘college’: 'MIT', 'age': 31, ‘name’: ‘Pete 


字典 修改 刍 'college' 的 值 为 'Empire State University" 

Afi d 4 spiderMan['college'] = ‘Empire State University" 

显示 字典 

spiderMan = 

('Nation': 'Americ', 'sex': 'male', ‘college’: ‘Empire State University’, ‘age 


字典 的 其 他 操作 方法 

CT 

显示 字典 所 有 的 键 ，keyList = spiderMan.keys() 

keyList = 

dict keys(['Nation', 'sex', ‘college’, 'age', 'name']) 


显示 字典 所 有 键 的 值 ，valueList ~ spiderMan.values() 
valueList = 
dict values(['Americ', ‘male’, ‘Empire State University’, 31, ‘Peter Parker']) 


显示 字典 所 有 键 和 值 的 元 组 ，itemList ~ spiderMan.items() 
itemList ~ 
dict items([('Nation', 'Americ'), ('sex', 'male'), ('college', ‘Empire State Ul 


MF Rb iS colleget Ml, college = spiderman.get('college') 
college = Empire State University 


删除 字典 中 键 为 Nation 的 值 

执行 命令 del(spiderMan['Nation']) 

显示 字典 

spiderMan = 

{'sex': 'male', 'college': 'Empire State University', 'age': 31, 'name': 'Pete| 


清空 字典 中 所 有 的 值 
执行 命令 spiderMan.clear() 
显示 字典 


spiderMan = 


执行 命令 del (spiderMan) 

显示 spiderMan 

spiderMan 未 被 定义 
king@debian8:~/code/crawlers Jf 








2-11 运行 showDict.py 
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Python 3 的 基本 变量 类 型 就 是 这 些 。 其 他 的 类 型 几乎 都 是 由 这 些 基 本 类 型 组 合 而 来 
(Python 还 有 特殊 的 数据 类 型 None 和 boolean) 。 








D 字典 的 键 和 键 值 可 以 是 任何 类 型 。 在 没有 什么 特殊 要 求 的 情况 下 ， 尽 可 能 地 使 用 字符 串 | 
( 作为 键 。 如 果 把 键 设置 得 太 复杂 了 ， 就 失去 字典 的 意义 了 。 











Python 语句 


说 到 语句 ， 回 想 一 下 C. CH, Java. Perl 等 ， 似 乎 所 有 的 编程 语言 都 有 类 似 的 语句 : 条 
件 判断 、 有 限 循环 、 无 限 循环 ， 这 几 个 是 最 基本 的 ， 也 是 必 不 可 少 的 。 每 个 编程 语言 都 差 不 
多 。 熟 悉 了 这 几 个 语句 后 ， 即 使 是 一 门 从 未 接触 过 的 语言 ， 稍 微 了 解 一 下 格式 语法 就 可 以 用 
新 的 语言 解决 一 般 的 小 问题 了 。 


2.2.1 和 条件 语句 if else 


似乎 所 有 的 条 件 语句 都 使 用 if……else……。 它 的 作用 可 以 简单 地 概括 为 “ 非 此 即 彼 ”。 
满足 条 件 A 则 执行 A 语句 ， 否 则 执行 B 语句 。Python 的 if……else…… 功 能 更 加 强大 ， 在 if 
和 else 之 间 添 加 数 个 elif， 有 更 多 的 条 件 选 择 。 其 表达 形式 如 下 : 

if 判断 条 件 1: 

执行 语句 1 

elif 判断 条 件 2: 

执行 语句 2 

elif 判断 条 件 3: 

执行 语句 3 

else: 


执行 语句 4 





【示例 2-6】 编 写 testIfRemainder7.py 熟悉 一 下 Python 3 下 的 论语 句 。testIfRemainder7.py 
用 来 检验 输入 数字 能 否 被 7 整除 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi testIfRemainder7.py 


testIfRemainder7.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 $-*- coding: utf-8 -*- 

3 | author = 'hstking hst_king@hotmail.com' 
4 

5 
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6 def isEvenNum (num): 


7i if num$7 -- 0: 

8 print ("td 可 以 被 7 整除 ”snum) 
9 else: 

10 print ("sd 不 可 被 7 整除 ”snum) 
qu 

12 if names == ! main *: 

Hs numStr = input (" 请 输入 一 个 整数 : ") 
14 TEES 

15 num = int(numStr) 

16 except ValueError as e: 

17 print (" 输 入 错误 ， 要 求 输入 一 个 整数 ") 
18 exit () 

19 

20 isEvenNum (num) 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 testlfRemainder7.py. testlfRemainder7.py 要 求 
用 户 输入 一 个 整数 ， 然 后 判断 这 个 数 能 否 被 7 整除 ， 基 本 就 是 一 个 最 简单 的 非 此 即 彼 的 判 
断 。 执 行 命令 : 

python3 testIfRemainder7.py 


得 到 的 结果 如 图 2-12 所 示 。 





a king@debian8: ~/code/crawler =z 0 X 





ing@debian8:~/code/crawler$ |python3 testIfRemainder?.py ^ 
输入 一 个 整数 : 10 

Po 不 可 被 7 整除 

xr AM python3 testlIfRemainder7.py 


ing@debian8:~/code/crawler$|python3 testIfRemainder?.py 
输入 一 个 整数 : 14 

上 4 可 以 被 7 整除 

Ma python3 testIfRemainder7.py 











输入 一 个 整数 : 0 
可 以 被 7 整除 


ing@debian8:~/code/crawlers Jf 








2-12 mun testIfRemainder7.py 
非常 简单 。 按 照 格 式 ， 照 猫 画 虎 就 可 以 解决 类 似 的 问题 了 。 
case switch 是 C 语言 中 经 典 的 条 件 语 句 之 一 。 可 惜 的 是 Python 中 并 没有 Case 语句 。 不 
过 没关系 ，if elif else 完全 可 以 蔡 代 case 语句 。 如 果 愿 意 开动 脑筋 ，Python 3 中 还 有 很 多 可 以 
替代 case 语句 的 方案 ， 例 如 利用 字典 什么 的 ， 这 里 就 不 再 一 一 袭 述 了 。 


2.2.2 ”有 限 循环 一 一 for 
在 编程 时 ， 总 会 遇 到 这 种 事情 ， 把 某 个 过 程 重复 N 次 。 这 是 每 个 编程 语言 都 不 可 避免 
的 。 好 在 几乎 所 有 的 编程 语言 都 提供 for 语句 。 它 的 作用 是 将 一 个 语句 块 、 函 数 等 重复 执行 
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有 限 的 次 数 。 

for 循 环 表达 形式 如 下 : 

for Var in Sequence: 

执行 语句 

比如 从 1 加 到 100。 大 数学 家 高 斯 (Johann Karl Friedrich Gauss ) 10 岁 时 就 给 出 了 计算 
的 公式 。 虽 然 已 经 有 了 简单 的 方法 ， 用 笨 方 法 验算 一 下 也 不 错 。 

【示例 2-7】 编 写 testForGauss10.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi testForGauss10.py 


testForGauss10.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #=*= coding: utf-8 =*= 





3 author  - 'hstking hst_king@hotmail.com' 
4 

5 def cumulative (num): 

6 sum = 0 

7 for i in range(1,num+1): 

8 sum += i 

9 return sum # 累 加 函数 ， 返 回 累加 后 的 值 

10 

11 def main(): 

12 while True: 

13 

14 print ("输入 exit 退出 程序 : 

15 str num = input ("从 1 RWA): ") 

16 if str num == 'exit': 

17 break 

18 try: 

19 sum = cumulative (int (str_num) ) 
20 except ValueError: 
21 print ("除非 退出 输入 exit， 只 能 输入 数字 ") 
22 continue 
23 print ("从 1 累加 到 %d 的 总 数 是 sd" % (int (str_num) ,sum) ) 
24 
25 
26. 1f _ pane SS Yet "r 
2 main() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testForGausslO0.py. testForGauss10.py 将 使 用 
最 笨 的 方法 求 从 1 加 到 100 的 和 ， 使 用 for 循环 一 个 数 一 个 数 地 登 如 。 执 行 命令 : 
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python3 testForGauss10.py 


得 到 的 结果 如 图 2-13 所 示 。 


& kingGdebian&: 





~/code/crawler - 口 x 


code/crawlers| python3 testForGaussl0.py ^ 





lking&debianB: 








‘a 

从 1 累加 到 : 10 
从 1 累加 到 10 的 总 数 是 55 

输入 exit 退出 程序 : 

从 1 累加 到 : 100 

从 1 累加 到 100 的 总 数 是 5050 

输入 exit 退出 程序 : 

从 1 累加 到 : 1000 

从 1 累加 到 1000 的 总 数 是 500500 
输入 exit 退 出 程序 : 

从 1 累加 到 : 10000 

AA LIK im 3 1000018 4 ff iÈ 50005000 
输入 exit 退出 程序 : 

从 1 累加 到 : ex 
king@debians: 








code/crawlers Bj 











图 2-13 运行 testForGauss10.py 


经 过 验算 ， 聪 明 办 法 和 笨 办 法 得 到 的 结果 一 致 。for 循环 用 于 数字 循环 时 可 以 使 用 for x 
in range(start_num, stop_num)。 与 Python 2 略 有 不 同 的 是 Python 3 中 没有 xrange AAT, H 
RIFT range 函数 ， 而 且 range 函数 返回 的 也 不 是 一 个 列表 ， 而 是 一 个 生成 器 。 


2.2.3 ”无限 循环 一 一 while 


既然 有 有 限 循环 ， 当 然 就 有 无 限 循 环 了 。 无 限 循环 的 作用 是 ， 只 要 不 满足 某 种 条 件 ， 就 
一 直 循环 下 去 ， 直 到 满足 条 件 为 止 。while 循环 表达 形式 如 下 : 

while Boolean expression: 

执行 语句 

【示例 2-8] Linux 终端 登录 就 是 一 个 类 似 while 循环 的 示例 。 下 面 模拟 Linux 终端 登录 ， 
编写 testWhileSimulateLogin.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi testWhileSimulateLogin.py 


testWhileSimulateLogin.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 #-*= coding: utf-8 -*- 

3 author  - 'hstking hst_king@hotmail.com' 
4 

5 import getpass 

6 

7 class FakeLogin (object): 
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def init (self): 
self.name = 'king' 


10 self.password = 'haha,no pw' 

T1 self.banner = 'hello, you have login system' 
12 self.run() 

13 

14 def run(self): 

15 ' fj Linux 终端 登录 窗口 !' 

16 Print (" 不 好 意思 ， 只 有 一 个 用 户 king") 

17 print (" 偷 偷 地 告诉 你 ， 密 码 是 6 个 8 R") 

18 while True: 

19 print ("Login: king") 

20 pw = getpass.getpass ("Password:") 
21 if pw == '88888888': 

22 print ("%s" %self.banner) 

23 print ("退出 程序 ") 

24 exit() 

25 else: 

26 if len(pw) » 12: 

27 print ("密码 长 度 应 该 小 于 12") 
28 continue 

29 elif len(pw) < 6: 

30 print ("密码 长 度 大 于 6 才 对 ") 
31 continue 

32 else: 

33 print (" 可 惜 ， 密 码 错误 。 继 续 猜 ") 
34 continue 

35 

36 

37 if name == ' main ': 

38 l = FakeLogin() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testWhileSimulateLogin.py 。 
testWhileSimulateLogin.py 脚本 模拟 Linux 登录 ， 只 有 输入 了 正确 的 密码 才 退 出 程序 ， 输 入 了 
背 误 的 密码 则 给 出 相应 的 提示 ， 直 到 输入 正确 为 止 。 因 为 不 知道 会 输入 多 少 次 才 会 退出 ， 所 
以 这 里 使 用 while 循环 正好 。 执 行 命令 


Python3 testWhileSimulateLogin.py 


得 到 的 结果 如 图 2-14 所 示 。 
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上 king@debian8: ~/code/crawler - n x 











king@debian8:~/code/crawlers| Python3 testWhileSimulateLogin.py ^ 
不 好 意思 ， 只 有 一 个 用 户 xing 
偷偷 地 告诉 你 ， 密 码 是 6 个 8 哦 





hello, you have login system 


king@debian8:~/code/crawlers lj 





2-14 ”运行 testWhileSimulateLogin.py 


实际 上 目前 的 终端 登录 都 有 次 数 限 制 ， 不 可 能 这 样 无 限 地 输入 密码 进行 测试 ， 否 则 就 会 
被 暴力 破解 。 正 好 这 个 程序 没有 限制 ， 有 兴趣 的 可 以 自行 编写 程序 ， 实 验 一 下 暴力 破解 密 
码 。 








& 使 用 while 循环 时 ， 最 后 一 定 要 有 一 个 满足 条 件 的 出 口 ， 否 则 就 是 死 循 环 。 











2.2.4 中 断 循环 一 continue、break 


continue 和 break 语句 都 只 能 作用 于 循环 之 中 ， 只 对 循环 起 作用 (for 循环 和 while 循环 
都 可 以 ) 。continue 的 作用 是 ， 从 continue 语句 开始 到 循环 结束 ， 之 间 所 有 的 语句 都 不 执 


行 ， 直 接 从 下 一 次 循环 重新 开始 ， 而 break 语句 的 作用 是 退出 循环 ， 该 循环 结束 。 


46 


il 
2 
ES 
4 
5 
6 
7 
8 
9 


10 


【示例 2-9] FA continue. break 来 做 一 个 随机 猜 数 字 的 游戏 。 先 给 定 一 个 数值 范围 ， 系 统 
在 给 定 的 范围 内 随机 选取 一 个 数 ， 然 后 来 猜 这 个 随机 数 是 多 少 ， 猜 对 了 就 直接 退出 ， 猜 错 了 
系统 则 提示 猜 的 数字 与 随机 数 相 比 是 大 了 还 是 小 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi guessNum.py 


guessNum py 的 代码 如 下 : 

#!/usr/bin/env Python3 

#-*- coding: utf-8 -*- 

__author_ = 'hstking hst_king@hotmail.com' 


import random 


class GuessNum(object): 


"RAT LR 1n 
def — init (self): 
print ("随机 产生 一 个 0-100 的 随机 数 ") 


mn self.num = random.randint (0,101) 


iz self.guess () 

13 

14 def guess (self): 

15 i=0 

16 while True: 

17 print (" 猜 这 个 随机 数 ，0-100") 

18 strNum = input ("输入 你 猜 的 数字 :") 
19 it=1 

20 try: 

2 print (V**kkkkkkkkkkkkkxn) 
22 if int(strNum) < self.num: 
23 print ("你 猜 得 太 小 了 ") 

24 continue 

25 elif int(strNum) > self.num: 
26 print (" 你 猜 得 太 大 了 ") 

27 continue 

28 else: 

29 print ("你 总 算是 猜 对 了 ") 

30 print ("你 总 共 猜 了 %d K" si) 
En break 

32 except ValueError: 

33 print (" 只 能 输入 数字 ， 继 续 猜 吧 ") 
34 continue 

35 print (" 如 果 没 有 continue 或 break， 就 会 显示 这 个 ， 要 不 要 试 试 ? ") 
36 

37 

38 if name == ' main ': 

39 gn = GuessNum() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 guessNum.py. guestNum 先 指定 了 一 个 1-100 
的 随机 数 。 然 后 开始 猜 这 个 随机 数 是 多 少 ， 一 般 来 说 5 次 左右 就 可 以 猜 出 来 。 如 果 能 一 次 猜 
到 这 个 随机 数 ， 有 这 么 逆 天 的 运气 还 是 赶紧 买 几 注 彩票 试 试 吧 。 执 行 命令 : 

python3 guestNum.py 


得 到 的 结果 如 图 2-15 所 示 。 
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i king@debian8: ~/code/crawler 





king@debian8:~/code/crawler$ [python3 guessNum.py 


随机 产生 一 个 0-100 的 随机 数 











EEJ 
> 
72 
ER 
Ban if 
Li Il 


SBS 
> es 
şa 
> 
Bas 
eS 


你 猜 得 太 大 了 
猜 这 个 随机 数 
输入 你 猜 的 数 


arx mm 
mde 
7B 
LIII 
mi» 
Li zal 


* 
a 
$ 
m 
a 
E 


你 总 共 猜 了 5 


king@debian8:~/code/crawlers fj 


E 





图 2-15 3247 guessNum.py 
试 一 下 ， 要 猜 多 少 次 才 会 猜 对 这 个 随机 数 。 








Fe = 一 般 来 说 ， 纯 粹 只 有 循环 而 没有 中 断 循环 的 情况 很 少见 〈 特 别 是 在 while 循环 中 ) , *| 
L 多 都 是 配对 出 现 的 ， 所 以 熟悉 了 循环 还 必须 掌握 中 断 循环 的 方法 。 








2.2.5 “异常 处 理 一 一 try except 

要 求 输入 的 数据 不 符合 要 求 ， 访 问 列 表 、 元 组 下 标 超出 范围 ， 根 据 key 访问 字典 中 的 
key 值 却 发 现 这 个 key 不 存在 …… 编程 时 总 会 遇 上 种 种 意外 。 有 些 编程 语言 在 碰 到 程序 执行 
意外 错误 时 ， 系 统 自动 提示 错误 ， 然 后 退出 程序 。 当 然 ，Python 也 是 这 样 处 理 的 ， 但 略 有 不 
同 的 是 Python 还 给 出 了 其 他 的 选择 。 

在 Python rp, Hj try 来 测试 可 能 出 现 异常 的 语句 ， 然 后 用 except 来 处 理 可 能 出 现 的 异 
常 。try except 的 表达 形式 如 下 : 

try: 

测试 语句 

except 异常 名 称 ， 异 常数 据 : 

处 理 异 常 语句 

except 异常 名 称 ， 异 常数 据 : 

处 理 异 常 语句 

else: 

未 出 现 异常 执行 语句 

finally: 

不 管 有 没有 异常 都 需要 执行 的 语句 
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其 中 ，else 和 finally 都 不 是 必须 选项 。try 和 except 则 是 必须 成 对 出 现 的 ， 可 以 同时 出 现 
多 个 except， 处 理 多 个 异常 情况 。Python 3 的 标准 异常 如 表 2-1 所 示 。 


R21 Python 标准 异常 表 

































































异常 名 称 描述 

BaseException 所 有 异常 的 基 类 

SystemExit 解释 器 请 求 退出 

KeyboardInterrupt 用 户 中 断 执 行 ( 通 常 是 输入 ^C) 
Exception 常规 错误 的 基 类 

Stoplteration 迭代 器 没有 更 多 的 值 

GeneratorExit 生成 器 (generator) 发 生 异常 来 通知 退出 
StandardError 所 有 的 内 建 标准 异常 的 基 类 
ArithmeticError 所 有 数值 计算 错误 的 基 类 
FloatingPointError 浮 点 计算 错误 

OverflowError 数值 运算 超出 最 大 限制 
ZeroDivisionError 除 (或 取 模 ) 零 〈 所 有 数据 类 型 ) 
AssertionError 断言 语句 失败 

AttributeError 对 象 没 有 这 个 属性 

EOFError 没有 内 建 输入 ， 到 达 EOF 标记 
EnvironmentError 操作 系统 错误 的 基 类 

IOError 输入 /输出 操作 失败 

OSError 操作 系统 错误 

WindowsError 系统 调用 失败 

ImportError 导入 模块 /对 象 失败 

LookupError 无 效 数 据 查 询 的 基 类 

IndexError 序列 中 没有 此 索引 (index) 

KeyError 映射 中 没有 这 个 键 

MemoryError 内 存 溢出 错误 〈 对 于 Python 解释 器 不 是 致命 的 ) 
NameError 未 声明 /初始 化 对 象 没有 属性 ) 
UnboundLocalError 访问 未 初始 化 的 本 地 变量 

ReferenceError 弱 引 用 (weak reference) 试图 访问 已 经 垃圾 回收 了 的 对 象 
RuntimeError 一 般 的 运行 时 错误 

NotImplementedError 尚未 实现 的 方法 
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BR) 





























异常 名 称 描述 

SyntaxError Python 语法 错误 

IndentationError 缩 进 错误 

TabError Tab 和 空格 混用 

SystemError 一 般 的 解释 器 系统 错误 

TypeError 对 类 型 无 效 的 操作 

ValueError 传 入 无 效 的 参数 

UnicodeError Unicode 相关 的 错误 

UnicodeDecodeError Unicode 解码 时 错误 

UnicodeEncodeError Unicode 编码 时 错误 

UnicodeTranslateError Unicode 转换 时 错误 

Warning 警告 的 基 类 

DeprecationWarning 关于 被 弃 用 的 特征 的 警告 

FutureWarning 关于 构造 将 来 语义 会 有 改变 的 警告 
OverflowWarning 旧 的 关于 自动 提升 为 长 整 型 (long) 的 警告 
PendingDeprecationWaming 关于 特性 将 会 被 废弃 的 警告 
RuntimeWaming 可 疑 的 运行 时 行为 (runtime behavior) 的 警告 
SyntaxWarning 可 疑 的 语法 的 警告 

UserWarning 用 户 代 码 生 成 的 警告 


【示例 2-10】 以 常见 的 输入 数据 异常 为 例 ， 编 写 testTryInput.py， 打 开 Putty 连接 到 
Linux， 执 行 命令 : 

cd code/crawler 

vi testTryInput.py 


testTryInput.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 4-*- coding: utf-8 -*- 
. author  - 'hstking hstking@hotmail.com' 


S 

4 

5 class TryInput (object): 

6 def inft (self): 

3i self.len - 10 

8 self.numList = self.createList() 
9 self.getNum() 

10 
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ni 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 


def createList (self): 
print (" 创 建 一 个 长 度 为 sd 的 数字 列表 "sself.1len) 
numL = [] 
while len(numL) < 10: 
n = input ("请 输入 一 个 整数 :") 
Erys 
num = int (n) 
except ValueError as e: 
print (" 输 入 错误 ， 要 求 是 输入 一 个 整数 ") 
Continue 
numL.append (num) 
print (" 现 在 的 列表 为 : ") ， 
print (numL) 
return numL 


def getNum(self): 
print ("当前 列表 为 ")， 
print (self.numList) 
inStr = None 
while inStr != 'EXIT': 
print ("输入 EXIT 退出 程序 ") 
inStr = input ("输入 列表 下 标 [-10, 9]: ") 
try: 
index = int(inStr) 
num = self.numList [index] 
print ("列表 中 下 标 为 $d 的 值 为 sd" % (index, num) ) 
except ValueError as e: 
print ("输入 错误 ， 列 表 下 标 是 一 个 整数 ") 
continue 
except IndexError: 
print ("下 标 太 大 ， 访 问 列表 超出 范围 ") 


continue 


if _name == ' main ': 


ti - TryInput() 


Jà Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 testTryInput.py. testTryInput.py 的 目的 是 创建 
一 个 数字 列表 ， 在 创建 过 程 中 尝试 各 种 异常 。 执 行 命令 : 


python testTryInput.py 


得 到 的 结果 如 图 2-16 所 示 。 
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EP king@debian8: ~/code/crawler 
king@debian8:~/code/crawler$ python3 testTryInput.py 


ME eee 


输入 错误 ， 列 表 下 标 是 一 个 整数 


king&debian8:-/code/crawlers ff 








FA 2-16 运行 testTryInput.py 


这 个 程序 针对 输入 出 现 的 异常 和 访问 列表 越界 的 异常 给 出 了 解决 方案 。 编 程 过 程 中 总 会 
遇 上 各 种 各 样 的 异常 。 考 虑 周到 一 点 ， 思 维 绩 密 一 点 ， 善 用 try 一 点 ， 程 序 的 健壮 性 就 不 目 
会 强 一 点 点 。 


2.2.6 ”导入 模块 一 一 Import 

Python 最 大 的 优点 不 是 简单 易学 ， 而 是 其 强大 的 模块 功能 。 前 面 写 的 一 个 程序 ， 后 面 就 
可 以 将 它 当 成 一 个 模块 导入 ， 取 其 精华 弃 其 糟粕 地 随意 使 用 。 最 理想 的 情况 是 任何 一 个 功 
能 ， 只 要 写 一 次 ， 以 后 所 有 人 都 可 以 任意 重复 调用 。 代 码 重用 性 非常 高 ， 而 且 Python 还 可 以 
根据 需求 将 C. CH, Java 等 程序 作为 模块 ， 随 意 取 用 。 这 也 是 为 什么 Python 被 称 之 为 胶水 
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Till 


的 原因 。 

Python 3 的 标准 模块 一般 也 叫 Python 3 标准 库 ) 是 安装 Python 3 时 自 带 的 模块 ， 具 体 
请 参考 网 页 https://docs.python.org/3/py-modindex.html。 它 包含 了 几乎 所 有 的 常用 功能 。 如 果 
觉得 不 够 ， 没 关系 ， 可 以 用 pip 来 安装 第 三 方 的 模块 ， 这 个 模块 库 就 已 经 非常 强大 了 。 如 果 
还 不 够 ， 也 没关系 ， 还 有 强大 的 github， 全 世界 爱好 Python 的 代码 贡献 者 都 将 成 为 坚实 的 后 
盾 。 只 需要 在 github 中 找到 适用 的 功能 程序 导入 自己 的 程序 里 就 可 以 了 。 对 别人 程序 极度 不 
放心 ， 非 要 自力 更 生 也 行 ， 那 就 辛苦 一 下 ， 自 己 写 个 程序 做 独 有 的 模块 吧 ! 

模块 导入 的 几 种 方式 如 下 ， 可 根据 需要 自行 选择 : 


# 同 时 导入 多 个 模块 
import modulel[, module2[,... moduleN] 


# 导 入 模块 中 的 某 个 函数 、 类 、 变 量 


from modname import namel[, name2[, ... nameN]] 


# 导 入 某 个 模块 中 所 有 内 容 


from modname import * 

每 次 使 用 print 打印 时 ， 总 是 同一 个 颜色 。 能 不 能 使 用 不 同 的 颜色 打印 呢 ? 当然 可 以 ， 第 
三 方 模块 库 里 就 有 相关 的 模块 。 只 需要 使 用 pip 安装 即 可 ， 从 github 中 仔细 找 找 ， 应 该 也 能 
找 得 到 。 在 这 里 自力 更 生 ， 自 己 动手 写 一 个 最 符合 自己 要 求 的 彩色 打印 的 print。 

【示例 2-11 】 编 写 colorPrint,py， 将 它 作为 模块 导入 其 他 Python 程序 中 使 用 。 打 开 
Putty， 连 接 到 Linux， 执 行 命令 : 


cd code/crawler 


语 


vi colorPrint.py 


colorPrint.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
__author_ = 'hstking hst_king@hotmail.com' 


import sys 


class ColorPrint (object): 
def init  (self,color,msg): 
9 self.color - color 
10 self.msg - msg 
alat self.cPrint (self.color,self.msg) 


oe 20050QNnP2 


13 def cPrint (self,color,msg) : 
14 colors = { 

TS Diack 5 "\033[1;30;47m', 

16 'red' B 'N033[1;31;47m' , 

17 'green' : 'N033[1;32;47m', 

18 'yellow': *NOSS[T?SS747m*, 

19 'blue' : 'N033[1;34; 47m' , 
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20 'white' : "\033[1;37;47m'} 


21 if color not in colors.keys(): 

22 print ("输入 的 颜色 暂时 没有 ， 按 系统 默认 配置 的 颜色 打印 ") 
23 else: 

24 print (" 输 入 的 颜色 有 效 , 开始 彩色 打印 ") 

25 print ("%s" %colors[color]) 

26 print (msg) 

27 print ("\033[0m") 

28 

29 

30 if name == '_main_': 


ai: cp = ColorPrint (sys.argv[1],sys.argv[2]) 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 ColorPrint.py。 这 里 只 写 入 了 黑色 、 红 色 、 绿 
黄色 、 蓝 色 和 白色 这 几 种 颜色 。 如 需 添 加 其 他 的 颜色 ， 请 自行 Google 一 下 。 执 行 命令 : 


Python3 colorPrint.py black "I'm black" 
python3 colorPrint.py red "I'm red" 
python3 colorPrint.py green "I'm green" 
python3 colorPrint.py yellow "I'm yellow" 
python3 colorPrint.py blue "I'm blue" 
python3 colorPrint.py white "I'm white" 


得 到 的 结果 如 图 2-17 所 示 。 





e 





Inf) king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 colorPrint.py black "I'm black" 


和 输入 的 颜色 有 效 , 开 始 彩色 打印 


I'm black 

king@debian8:~/code/crawler$ python3 colorPrint.py red "I'm red" 
输入 的 颜色 有 效 , 开 始 彩色 打印 

I'm red 


king@debian8:~/code/crawler$ python3 colorPrint.py green "I'm green" 


和 输入 的 颜色 有 效 , 开 始 彩色 打印 


I'm green 

king@debian8:~/code/crawler$ python3 colorPrint.py yellow "I'm yellow" 
输入 的 颜色 有 效 , 开 始 彩色 打印 

I'a yellow 

king@debian8:~/code/crawler$ python3 colorPrint.py blue "I'm blue” 
输入 的 颜色 有 效 , 开 始 彩色 打印 

I'm blue 

king@debian8:~/code/crawler$ python3 colorPrint.py white "I'm white" 
输入 的 颜色 有 效 , 开 始 彩色 打印 

I'a white 





kingüdebian&:-/code/crawlers |j 





图 2-17 运行 colorPrint.py 


彩色 打印 已 经 实现 了 (白色 打印 时 因为 背景 色 也 是 白色 ， 所 以 显示 不 明显 ) ， 下 面 是 将 
ColorPrint.py 当 作 模块 导入 其 他 Python 程序 中 使 用 。 


【示例 2-12] 无 须 太 复杂 ， 写 个 最 简单 的 testColorPrint.py， 只 要 能 将 colorPrint.py 当成 模 
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块 导入 使 用 即 可 。 执 行 命令 : 


cd code/crawler 


Vi testColorPrint.py 


testColorPrint.py 的 代码 如 下 : 


al 
2 
3 
4 
5 
6 
7 
8 
9 


10 
11 
12 
us) 
14 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 


. author . 


= 'hstking hst_king@hotmail.com' 


from colorPrint import ColorPrint 


# 这 里 的 colorPrint 模块 就 是 从 当前 目录 下 导入 的 colorPrint.py 程序 


if _ name 
p_black 
p_black 
p_black 
p_black 
p_black 
p_black 


== ' main ': 
= ColorPrint('black','I am black print') 
= ColorPrint('red','I am red print') 
= ColorPrint('green','I am green print') 
= ColorPrint('yellow','I am yellow print') 
= ColorPrint('blue','I am blue print') 
= ColorPrint ('white','I am white print') 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testColorPrint.py. testColorPrint.py 尝试 调用 
colorPrint py 脚本 作为 模块 ， 调 用 该 脚本 的 类 放 到 自己 的 脚本 中 执行 。 执 行 命令 : 


python testColorPrint.py 


得 到 的 结果 如 图 2-18 所 示 。 





IP king@debian8: ~/code/crawler 
king@debian8:~/code/crawler$ |python3 testColorPrint.py 
AA IUE ERIS 
I am black print 

M ABO I FREAD 
I am red print 

输入 的 颜色 有 效 , 开 始 彩 色 打 印 

















I am green print 
SANMEAR FRBATH 
i am yellow print 

输入 的 颜色 有 效 , 开 始 彩 色 打 印 
I am blue print 
ARES IE OEREERITEm 


I zm white print 





king@debian8:~/code/crawlers ff 








218 ”导入 模块 测试 
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| 将 Python 程序 当成 模块 导入 的 先决 条 件 是 ， 这 两 个 程序 在 同一 目录 下 。 或 者 将 模块 化 的 
程序 (这 里 就 是 colorPrintpy) 路 径 加 入 Python 的 系统 路 径 中 。 是 不 是 很 简单 呢 ? 其 实 
Python 就 是 这 么 简单 。 











2.3 函数 和 类 


C、C++、jJava、Ruby、Perl、Lisp…… 在 笔者 所 知 的 编程 语言 之 中 ， 所 有 程序 都 是 由 函 
数 〈 有 的 编程 语言 叫做 过 程 、 方 法 什么 的 ) 和 类 组 成 的 。 可 以 说 任何 程序 里 面包 含 的 不 是 函 
数 就 是 类 ，Python 当然 也 不 例外 。 


2.3.1 函数 


在 学 习 UNIX 时 ， 曾 经 有 一 名 非常 出 名 的 话 是 In UNIX Everything Is A File， 在 UNIX 中 
所 有 的 一 切 都 是 文件 。 在 这 里 可 以 借鉴 一 下 ，In Python Everything Is A Function， 在 Python 
程序 中 ， 所 有 的 一 切 都 是 函数 。 这 是 典型 的 C 语言 写法 ， 把 所 需 的 功能 都 写成 一 个 个 的 函 
数 ， 然 后 由 函数 调用 函数 。 以 此 类 推 ， 最 终 完成 整个 程序 的 功能 。 

还 记得 前 面 提 过 的 暴力 破解 吗 ? 不 管用 什么 工具 ， 暴 力 破解 都 少不了 一 个 合适 的 字典 文 
件 〈 此 字典 非 彼 字典 ， 这 里 的 字典 指 的 是 一 个 包含 密码 的 文件 ， 也 就 是 一 个 密码 集 ， 而 不 是 
Python 的 变量 类 型 ) 。 当 然 网 上 有 很 多 的 密码 字典 可 供 下 载 ， 但 它们 要 么 太 大 ， 遍 历 一 次 需 
要 太 多 的 时 间 ， 要 么 没有 针对 性 ， 根 本 就 不 包含 所 需 的 密码 。 如 果 已 知 了 一 些 可 能 是 密码 的 
字符 串 ， 完 全 可 以 根据 已 知 条件 用 程序 编写 有 针对 性 的 字典 出 来 ， 这 样 会 节省 很 多 时 间 。 

【示例 2-13】 现 在 来 编写 一 个 简单 的 程序 mkPassFileFunction.py。 

mkPassFileFunction.py， 创 建 一 个 有 针对 性 的 专用 密码 字典 。 打 开 Putty 连接 到 Linux， 
执行 命令 : 


cd code/crawler 
vi mkPassFileFunction.py 


mkPassFileFunction.py 的 代码 如 下 : 

#!/usr/bin/env python3 

#-*- coding: utf-8 -*- 

__author_ = 'hstking hst_king@hotmail.com' 


import os 


import platform 


- 00 50 N Hd 


import itertools 
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29 
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import time 


def main(): 

xg 

global rawList # 原 始 数 据 列表 
rawList = [] 

global denyList # 非 法 单词 列表 
denyList = [' ','','@"] 
global pwList # 最 终 的 密码 列表 
pwList = [] 

global minLen # 密 码 的 最 小 长 度 
minLen = 6 

global maxLen # 密 码 的 最 大 长 度 
maxLen = 16 

global timeout 

timeout = 3 

global flag 

flag = 0 

run = { 

:exit, 

:getRawList, 
'2':addDenyList, 
'3':clearRawList, 
'4':setRawList, 
'5':modifyPasswordLen, 





'6':createPasswordList, 
'7':showPassword, 
'8':createPasswordFile 


while True: 
mainMenu() 
op = input (' 输 入 选项 :') 
if op in map(str,range(len(run))): 
run.get (op) () 
else: 
tipMainMenuInputError() 


continue 


def mainMenu(): 
BEE 主 菜 单 ver 
global denyList 
global rawList 
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93 


global pwList 


global flag 

clear () 

print('|l'), 

print('-2'*40), 

prints 

print('|| 0: 退 出 程序 ') 
print('|| 1: 输 入 密码 原始 字符 串 " ) 
print ("|| 2: 添 加 非法 字符 到 列表 ') 
print ("|| 3: 清 空 原始 密码 列表 ') 
print ("|| 4: 整 理 原始 密码 列表 ') 
Print('|| 5: 改 变 默认 密码 长 度 (%d-%d)' %(minLen,maxLen) ) 
print ("|| 6: 创 建 密码 列表 ') 
print('|| 7: 显 示 所 有 密码 ') 
print('|| 8: 创建 字典 文件 ') 


print('|l"), 
print ('='*40), 
print ("||") 
Print(' 当 前 非法 字符 为 : ss' tdenyList) 
Print(' 当 前 原始 密码 元 素 为 : $s' trawList) 
print (' 共 有 密码 %$d 个 ' $&1en(pwList)) 
if flag: 

print ("已 在 当前 目录 创建 密码 文件 dic.txt") 
else: 


print ("尚未 创建 密码 文件 ") 


def clear(): 
BEE TE ING 
OS = platform.system() 
if (OS == u'Windows'): 
os.system('cls') 
else: 
os.system('clear') 


def tipMainMenuInputError(): 
Ve ver 


clear () 


print ("只 能 输入 0-7 的 整数 ,等 待 $d 秒 后 重新 输入 ” Stimeout) 


time.sleep (timeout) 


def getRawList(): 
' ”获取 原始 数据 列表 tnn 


clear() 
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114 
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global denyList 
global rawList 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 原始 密码 列表 为 :%$s" $rawList) 
st = None 
while not st == '': 
st = input (" 请 输入 密码 元 素 字 符 串 :") 
if st in denyList: 
print (" 这 个 字符 串 是 预先 设 定 的 非法 字符 串 ") 
continue 
else: 
rawList.append (st) 
clear() 
print (" 输 入 回 车 后 直接 退出 ") 
print ("当前 原始 密码 列表 为 :%s" S$rawList) 


def addDenyList(): 


trunk tt 
clear() 
global denyList 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 非法 字符 为 :%$s" $denyList) 
st = None 
while not st == ''; 
st = input (" 请 输入 需要 添加 的 非法 字符 串 :") 
denyList.append(st) 
clear () 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 非法 字符 列表 为 :%s" SdenyList) 


def clearRawList(): 


''' 清 空 原始 数据 列表 Itn. 
global rawList 
rawList = [] 


def setRawList(): 


" "整理 原始 数据 列表 Itn. 
global rawList 

global denyList 

a = set (rawList) 

b = set(denyList) 
rawList = [] 

for str in set(a - b): 
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rawList.append (str) 


def modifyPasswordLen(): 
" "修改 默认 密码 的 长 度 ''' 
clear() 
global maxLen 
global minLen 
while True: 
print (" 当 前 密码 长 度 为 sd-sd" $(minLen,maxLen)) 
min = input ("请 输入 密码 最 小 长 度 : ") 
max = input ("请 输入 密码 最 大 长 度 :") 
try: 
minLen = int (min) 
maxLen = int (max) 
except ValueError: 
print ("密码 长 度 只 能 输入 数字 [6-18]") 
break 
if minLen not in range(6,19) or maxLen not in range(6,19): 
print ("密码 长 度 只 能 输入 数字 [6-18]") 
minLen = 6 
maxLen = 16 
continue 
if minLen == maxLen: 
res = input ("确定 将 密码 长 度 设 定 为 $d 吗 ? (Yy/Nn)" $minLen) 
if res not in list('yYnN'): 
print (" 输 入 错误 ， 请 重新 输入 ") 
continue 
elif res in list('yY'): 
print ("好 吧 ， 你 确定 就 好 ") 
break 
else: 
print ("给 个 机 会 ， 改 一 下 吧 ") 
continue 
elif minLen > maxLen: 
print ("最 小 长 度 比 最 大 长 度 还 大 ， 可 能 吗 ? 请 重新 输入 ") 
minLen = 6 


maxLen = 16 


continue 
else: 
print ("设置 完毕 ， 等 待 $d 秒 后 回 主 菜 单 ”s%timeout) 
time.sleep (timeout) 
break 


180 def createPasswordList (): 


181 
182 
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185 
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188 
189 
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205 


"rre tItnÀ. 
global rawList 
global pwList 
global maxLen 
global minLen 
titleList - [] 
swapcaseList - [] 
for st in rawList: 
swapcaseList.append(st.swapcase()) 
titleList.append(st.title()) 
subl - [] 
sub2 - [] 
for st in set(rawList + titleList + swapcaseList): 
subl.append(st) 
for i in range(2,len(subl) * 1): 
sub2 += list(itertools.permutations (subl,i)) 
for tup in sub2: 
PW - '' 
for subPW in tup: 
PW += subPW 
if len(PW) in range(minLen,maxLen + 1): 
pwList.append (PW) 
else: 
pass 


206 def showPassword(): 


207 
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"" "显示 创建 的 密码 '" 
global PwList 
global timeout 
for i in range (len (pwList)): 
if i$4 == 0: 
print ("%s\n" $pwList[i]) 
else: 
print ("%s\t" %pwList[i]), 
print ('\n') 
print ("显示 %d 秒 ， 回 到 主 菜单 " $timeout) 
time.sleep (timeout) 


219 def createPasswordFile(): 


220 
221 
222 


" "创建 密码 字典 文件 '"" 
global flag 
global pwList 
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223 print (" 当 前 目录 下 创建 字典 文件 :dic.txt") 


224 time.sleep (timeout) 

225 with open('./dic.txt','wt') as fp: 
226 for PW in pwList: 

227 fp.write (PW) 

228 fp.write('\n"') 

229 flag = 1 

230 

FER 

232 if name == ' main ': 


233 main() 


4% Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 mkPassFileFunction.py. mkPassFileFunction.py fl 
微 复杂 一 点 点 ， 它 的 作用 就 是 根据 用 户 输入 的 “密码 元 素 ” 来 创建 一 个 字典 列表 。 该 脚本 将 
输入 的 元 素 根据 一 定 的 规则 修改 、 添 加 后 当 作 新 元 素 添加 到 元 素 列表 中 去 。 最 后 将 元 素 列表 
排列 组 合 得 到 字典 列表 。 执 行 命令 : 


python mkPassFileFunction.py 


得 到 的 结果 如 图 2-19 所 示 。 





— 


2-19 运行 mkPassFileFunction.py 


纯 C 语言 的 写法 好 处 就 是 关系 简单 明了 ， 函 数 调用 一 目 了 然 。 如 果 调 用 的 函数 过 多 ， 就 
难免 有 些 混乱 了 。 简 单 功能 的 程序 还 无 妨 ， 稍 大 一 点 项 目 就 有 些 吃力 了 。 








不 要 添加 太 多 的 “密码 元 素 ”， 这 个 程序 只 是 利用 了 Python 3 的 模块 ， 没 有 优化 算法 。 
( 如 果 输 入 的 “密码 元 素 ”超过 了 20 个 ， 那 么 创建 密码 字典 的 时 间 会 非常 长 。 














2.3.2 类 


既然 有 了 In Python Everything Is A Function， 当 然 会 有 In Python Everything Is A Class. 
这 种 C++ 的 写法 就 是 把 所 有 相似 的 功能 都 封装 到 一 个 类 里 。 最 理想 的 情况 是 一 个 程序 只 有 一 
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个 主 程序 ， 然 后 在 主 程序 里 实例 化 类 。 


【示例 2-14】 还 是 以 编写 密码 字典 为 例 ， 将 mkPassFileFunction py 改编 成 mkPassFileClass.py。 
打开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


Vi mkPassFileClass.py 


mkPassFileClass.py 的 代码 如 下 : 


o 0-100 5&0 Wnnc 


WWWWWWNNHNHNHNDNHNKHNHNNHFPPRP RPP BP PPB 
OBRWNFPSOLAIADGHKWNHF OCH AINYHDUBWNHRO 


#!/usr/bin/env python3 
$-*- coding; utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


import os 
import platform 
import itertools 


import time 


class MakePassword (object): 
def init (self): 
self.rawList = [] 
self.denyList = ['',' ','Q'] 
self.pwList = [] 
self.minLen = 6 
self.maxLen = 16 
self.timeout = 3 
self.flag = 0 
self.run = { 
"O'sexit, 
'1':self.getRawList, 
'2':self.addDenyList, 
'3':self.clearRawList, 
'4':self.setRawList, 
'5':self.modifyPasswordLen, 
'6':self.createPasswordList, 
'7':self.showPassword, 





:self.createPasswordFile 


self.main() 


def main(self): 
while True: 
self.mainMenu () 
op = input (' 输 入 选项 : ') 
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if op in map(str,range(len(self.run))): 


self.run.get (op) () 


else: 


self.tipMainMenuInputError() 


continue 


def mainMenu (self): 


self.clear() 


print('|l'), 
print('2'*40), 


print('||"' 


print ("|| 
print ("|| 
print ("|| 
print ("|| 
print ("|| 
print ("|| 
print ("|| 
print ("|| 
print ("|| 


J 
0 


Yous WHR 


œ 


:退出 程序 ') 

:输入 密码 原始 字符 串 ') 

:添加 非法 字符 到 列表 ') 

:清空 原始 密码 列表 ') 

:整理 原始 密码 列表 ') 

:改变 默认 密码 长 度 (%d-%d)' $(self.minLen,self.maxLen)) 
:创建 密码 列表 ') 

:显示 所 有 密码 ') 

:创建 字典 文件 ') 


print (11'), 
print ('='*40), 


print('||' 


) 


print (' 当 前 非法 字符 为 : ss' tself.denyList) 
print (' 当 前 原始 密码 元 素 为 : $s' tself.rawList) 
print (' 共 有 密码 %$d 个 ' $len(self.pwList)) 
if self.flag: 

print ("已 在 当前 目录 创建 密码 文件 dic.txt") 


else: 


print ("尚未 创建 密码 文件 ") 


def clear(self): 
OS = platform.system() 


if (OS == 


'"Windows'): 


os.system('cls') 


else: 


os.system('clear') 


def tipMainMenuInputError (self): 


self.clear() 


print ("只 能 输入 0-7 的 整数 ,等待 %d 秒 后 重新 输入 ”8stimeout) 


time.sleep (timeout) 


79 def getRawList (self): 


80 self.clear() 

81 print ("输入 回 车 后 直接 退出 ") 

82 print ("当前 原始 密码 列表 为 :%s" $self.rawList) 
83 st = None 

84 while not st == "": 

85 st = input (" 请 输入 密码 元 素 字符 串 :") 

86 if st in self.denyList: 

87 print (" 这 个 字符 串 是 预先 设 定 的 非法 字符 串 ") 
88 continue 

89 else: 

90 self.rawList.append(st) 

91 self.clear() 

92 print (" 输 入 回 车 后 直接 退出 ") 

93 print ("当前 原始 密码 列表 为 :%s" tself.rawList) 
94 

95 def addDenyList (self): 

96 self.clear() 

97 print ("输入 回 车 后 直接 退出 ") 

98 print ("当前 非法 字符 为 :$s" $self.denyList) 
99 st = None 

100 while not st == '': 

101 st = input ("请 输入 需要 添加 的 非法 字符 串 :") 
102 self.denyList.append(st) 

103 self.clear() 

104 print ("输入 回 车 后 直接 退出 ") 

105 print ("当前 非法 字符 列表 为 :%s" tself.denyList) 
106 

107 def clearRawList (self): 

108 self.rawList = [] 

109 

110 def setRawList (self): 

111 a = set (self.rawList) 

112 b = set (self.denyList) 

113 self.rawList = [] 

114 for str in set(a - b): 

115 self.rawList.append(str) 

116 

anti def modifyPasswordLen (self): 

118 self.clear() 

119 while True: 

120 print (" 当 前 密码 长 度 为 sd-sd" $(self.minLen,self.maxLen)) 


121 min = input (" 请 输入 密码 最 小 长 度 :") 


122 max = input (" 请 输入 密码 最 大 长 度 :") 


123 try: 

124 self.minLen = int (min) 

125 self.maxLen - int (max) 

126 except ValueError: 

127 print ("密码 长 度 只 能 输入 数字 [6-18]") 

128 break 

129 if self.minLen not in range(6,19) or self.maxLen not in range(6,19): 
130 print ("密码 长 度 只 能 输入 数字 [6-18]") 

131 self.minLen = 6 

132 self.maxLen = 16 

133 continue 

134 if self.minLen == self.maxLen: 

135 res = input ("确定 将 密码 长 度 设 定 为 $d nj? (Yy/Nn)" $self.minLen) 
136 if res not in list('yYnN'): 

137 print ("输入 错误 ， 请 重新 输入 ") 

138 continue 

139 elif res in list('yY'): 

140 Print ("好 吧 ， 你 确定 就 好 ") 

141 break 

142 else: 

143 Print ("给 个 机 会 ， 改 一 下 吧 ") 

144 continue 

145 elif self.minLen > self.maxLen: 

146 print ("最 小 长 度 比 最 大 长 度 还 大 ， 可 能 吗 ? 请 重新 输入 ") 
147 self.minLen = 6 

148 self.maxLen = 16 

149 continue 

150 else: 

151 print ("设置 完毕 ， 等 待 $d 秒 后 回 主 菜单 " $Sself.timeout) 
152 time.sleep(self.timeout) 

153 break 

154 

155 def createPasswordList (self): 

156 titleList = [] 

157 swapcaseList = [] 

158 for st in self.rawList: 

159 swapcaseList.append(st.swapcase()) 

160 titleList.append(st.title()) 

161 subl - [] 

162 sub2 = [] 

163 for st in set(self.rawList + titleList + swapcaseList): 


164 subl.append (st) 


165 for i in range(2,len(subl) + 1): 


166 sub2 += list (itertools.permutations (subl,i)) 
167 for tup in sub2: 

168 Pw='' 

169 for subPW in tup: 

170 PW += subPW 

LL if len(PW) in range(self.minLen,self.maxLen + 1): 
172 self.pwList.append (PW) 

HIS else: 

174 pass 

175 

176 def showPassword (self): 

ITI. for i in range(len(self.pwList)): 
178 if it4 == 0: 

179 print ("%s\n" $self.pwList[i]) 
180 else: 

181 print ("%s\t" $self.pwList[i]), 
182 print ('\n') 

183 print ("显示 %d 秒 ， 回 到 主 菜 单 " $self.timeout) 
184 time.sleep(self.timeout) 

185 

186 def createPasswordFile(self) : 

187 print ("当前 目录 下 创建 字典 文件 :dic.txt") 
188 time.sleep(self.timeout) 

189 with open('./dic.txt','w+') as fp: 
190 for PW in self.pwList: 

191 fp.write (PW) 

192 fp.write('\n') 

193 self.flag = 1 

194 

195 

196. JE nme __ == "pain "i 


197 mp = MakePassword() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 mkPassFileClass.py. mkPassFileClass.py 和 
mkPassFileFunction.py 实质 上 没有 什么 区 别 ， 只 是 一 个 使 用 的 是 C 语言 风格 的 函数 调用 ， 一 
个 使 用 的 是 C++ 风格 的 类 实例 化 。 执 行 命令 : 


Python3 mkPassFileClass.py 


得 到 的 结果 如 图 2-20 所 示 。 
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:退出 程序 
:输入 密码 原始 字符 串 
:添加 非法 字符 到 列表 
:基带 原始 密码 列表 
:改变 畴 认 密码 长 度 (6-16) 
:创建 密码 列表 
:显示 所 有 密码 

:创建 字典 文件 


























2-20 ”运行 mkPassFileClass.py 
执行 结果 完全 一 样 。 这 种 C++ 的 写法 好 处 就 是 调用 过 程 简单 ， 不 再 关心 类 具体 的 实现 过 


程 ， 内 需要 调用 其 功能 即 可 ; 但 随 之 而 来 就 是 类 的 继承 、 函 数 重 载 等 麻烦 。 这 种 写法 在 写 大 
项 目 时 可 能 非常 有 用 ， 写 小 程序 也 行 ， 只 是 没有 那么 多 优势 了 。 








这 个 程序 还 有 一 个 问题 ， 就 是 在 创建 密码 文件 前 并 没有 估算 磁盘 剩余 空间 是 否 足够 。 一 
| 般 的 解决 办 法 是 先 估算 密码 文件 的 大 小 ， 然 后 创建 一 个 大 小 相同 的 空 文件 ， 能 创建 成 功 
就 继续 运行 程序 ， 不 能 则 抛 出 异常 。 








2 e 4 Python 内 置 函 数 


自行 设置 函数 很 简单 ， 但 用 户 不 可 能 将 所 有 常用 的 功能 都 设置 成 函数 。Python 很 贴心 地 
将 一 些 常用 的 功能 设置 成 了 内 置 函数 。 这 些 函 数 无 须 从 模块 中 导入 ， 也 无 须 定义 就 可 以 在 任 
意 位 置 直接 调用 。 


241 常用 内 置 函数 
一 般 常 用 的 内 置 函数 如 下 : 


abs(-1): 求 绝对 值 ， 返 回 1。 

max([1,2,3]): 求 序列 中 最 大 值 ， 可 以 是 列表 或 元 组 。 
min((2, 3, 4)): 求 序列 中 最 小 值 ， 可 以 是 列表 或 元 组 。 
divmod(6, 3): 取 模 ， 返 回 一 个 元 组 ， 包 含 商 和 余数 。 
int(3.9): 转换 成 整数 ， 去 尾 转换 。 

float(3): 转换 成 浮 点 数 。 

str(123): 转换 成 字符 串 。 
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€  lis((1,2): 元 组 转换 为 列表 。 
€ tuple([1,2]): 列表 转换 成 元 组 。 
€ len([1,3, 5]): 求 序列 长 度 ， 可 以 是 列表 或 元 组 。 


这 些 都 是 比较 简单 常见 的 函数 ， 执 行 结 果 如 图 2-21 所 示 。 


B) king@debian8: ~/code/crawler - n x 


Python 3.4.2 (default, Oct 8 2014, 10:45:20) ^ 
[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information. 

>>> abs(-1) 

1 

»»» max([1, 2, 3]) 

3 

>>> min(I[2, 3, 4]) 





>>> divmod(6, 3) 
(2, 0) 

>>> int (3.9) 

3 

>>> float(3) 
3.0 

>>> str(123) 


»»» list((1,2)) 
n, 2] 

>>> tuple([1, 2]) 
a, 2) 

>>> len([1, 3, 5]) 








3 
>>> 目 v 





图 2-21 Python 简单 内 置 函 数 
Python 内 置 函 数 当然 不 止 这 些 ， 但 常用 的 大 致 就 是 这 些 了 。 基 本 无 须 刻意 记忆 ， 多 使 用 
几 次 自然 就 记得 了 。 


242 ”高 级 内 置 函 数 

有 简单 的 内 置 函数 ， 当 然 也 有 相对 高 级 一 点 的 内 置 函 数 。 本 小 节 说 明 最 常用 的 几 个 高 级 
内 置 函 数 ， 即 lambda, map. filter. reduce. 

(1) lambda 函数 。 在 Python 中 ，lambda 的 作用 是 定义 一 个 匿名 函数 。 有 时 候 程序 需要 
执行 一 个 功能 ， 但 这 个 功能 非常 简单 ， 也 不 是 一 个 常用 功能 (例如 输入 一 个 数字 ， 返 回 这 个 
数字 乘 2 加 D 。 没 有 必要 为 此 专门 去 定义 一 个 函数 ， 此 时 就 可 以 使 用 lambda 函数 。 在 
Python 环境 下 执行 命令 : 

f = lambda x: x*2 + 1 


f (3) 
f(5) 


执行 结果 如 图 2-22 所 示 。 
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IB king@debian8: ~/code/crawler 一 口 X 


king@debian8:~/code/crawler$ python3 ^| 
Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information 

>>> f = lambda x: x*2 + 1 





2-22 Python 高 阶 函 数 lambda 


lambda 函数 可 以 简化 程序 ， 节 约 资源 。 如 今 计算 机 资源 很 少 有 不 足 的 情况 ， 也 可 以 定义 
一 个 函数 来 蔡 代 lambda. 

(2) map 函数 。map， 从 名 字 上 就 可 以 看 出 是 一 一 映射 的 意思 。 通 常 一 般 函 数 的 映射 是 
输入 变量 ， 通 过 指定 的 关系 映射 ， 返 回 的 也 是 一 个 变量 。map 稍 有 不 同 ， 它 要 求 输入 的 变量 
是 一 个 函数 和 一 个 序列 〈 通 常 是 列表 ， 也 可 以 是 元 组 或 者 生成 器 ) ， 通 过 一 个 定义 的 函数 对 
序列 中 的 每 个 元 素 进 行 一 一 映射 ， 返 回 的 是 一 个 列表 (map. 并 不 改变 作为 参数 的 列表 或 元 
组 ， 但 返回 的 一 定 是 列表 ) 。 在 Python 环境 下 执行 命令 : 

def f(x): 

return x*x 

def printSeq(seq): 

for i in seq: 

print("$d " $i, end-'') 

print (end=’ \n’) 

TA 1,27: 3 An Sr Or Mr Oy, 9 

s = (x for x in range(1,10)) 


printSeq (li) 
printSeq(s) 


printSeq(map(f, 1i)) 
printSeq(map(f, s)) 


printSeq(map(lambda x:x*x, li)) 
printSeq(map (lambda x:x*x, s)) 


执行 结果 如 图 2-23 所 示 。 
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B ESER - python - o x 
^ 

:\Users\king>python 

ython 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v. 1900 64 bi 

It (AND64)] on win32 


[Type "help", “copyright”, "credits" or "license" for more information. 
>> def f(x): 
= return x*x 


b>> def printSeq(seq): 
[. for i in eed j 

print(^Wd " Wi, end?’ = 
print (end=’ W') mum 


D» li = 了 -一 一 

b>>[s = (x for x in range(l, 10 

>>> 

5» printSeq(1i) 
2 


" 34567829 内 部 元 素 一 致 
>> printSeq(s) < 
23456789 











>>> printSeq(map(f, 1i)) 
1 4 9 16 25 36 49 64 81 


peerage, MN MEDIEN. rM 
作为 printSeq 函 数 的 参数 
>>> printSeq(map(lambda x:x*x, 1i)) J 





1 4 9 16 25 36 49 64 81 
Po printSeq(map(lambda x:x¥x, s)) 




















>>> = 


图 2-23 Python 高 阶 函 数 map 


使 用 map 函数 对 序列 (列表 或 元 组 、 生 成 器 〉 元 素 一 一 映射 。 不 用 每 次 都 使 用 for 循 
环 ， 精 简 了 代码 ， 使 代码 更 加 通俗 易 懂 。 


(3) filter 函数 。 顾 名 思 义 filter 主要 用 于 过 滤 。 基 本 与 map 函数 相似 ， 不 同 的 是 它 添加 
了 一 个 限定 条 件 〈 不 然 为 什么 叫 过 滤 ) ， 符 合 这 个 条 件 的 才 会 被 输出 ， 不 符合 的 则 去 掉 。 与 
map 函数 相同 的 是 ， 它 输入 的 参数 同样 是 一 个 函数 和 序列 〈 可 以 是 元 组 和 生成 器 ) 。 由 输入 
参数 中 的 函数 来 判断 序列 中 的 哪些 元 素 可 以 通过 返回 、 哪 些 直 接 去 掉 ， 最 后 返回 的 也 只 能 是 
一 个 新 的 列表 。 在 Python 环境 下 执行 命令 : 

def f1(x): 

if x$2 == 


return x 





else: 
pass 


def printSeq(seq) : 
for i in seq: 

print("$d " $i, end=") 
print (end='\n') 


li = [x for x in range(1, 10)] 
type(li) 


g = (x for x in range(1, 10)) 
type (g) 


£1 


printSeq(li) 
printSeq(g) 


printSeq(filter(fl, 1i)) 
printSeq(filter(lambda x:x%2==1, 1i)) 


printSeq(filter(fl, g)) 
printSeq(filter(lambda x:x$2--1, g)) 
执行 结果 如 图 2-24 所 示 。 





pass ^ 


b>> def printSeq(seq): 
IM for i in seq: ; 
print("4d ^ Wi, end=’’) 





print (anie Wr) 列表 推导 式 ， 得 到 列表 
>> li = [x for x in range(1, 10)] 
55 type (li), <_< 


class ’ list’ > 











>>> 
b» g = & for x in range(1, 10)) 
PP» type(g. 

class ' generator’ > CE 生成 器 








D>> printSeq(1i) 

123456789 

b>> printSeq(g) 

123456789 
> 

b>> printSeq(filter(fl, 1i)) 

13579 


>>> printSeq(filter(lambda x:x%2==1, 1i)) 
13579 列表 可 过 滤 ， 生 成 器 不 能 过 滤 





> 
>>> printSeq(filter(fl, g)) 


>>> printSeq(filter (lambda x:x%2==1, g)) 




















图 2-24 Python 高 阶 函数 filter 


在 使 用 filter 函数 时 ， 要 注意 代入 参数 。 检 查 序列 与 函数 是 否 匹 配 。 比 如 lambda 和 简化 
后 的 函数 ， 虽 然 使 用 比较 方便 。 把 列表 作为 参数 时 都 没 问 题 ， 但 把 生成 器 作为 参数 就 有 可 能 
无 法 返回 。 

(4) reduce 函数 。 在 Python 2 中 reduce 是 内 置 函 数 ， 但 在 Python 3 中 rudece 被 放置 到 
functools 模块 中 了 。reduce 是 减少 、 缩 小 的 意思 。reduce 函数 针对 的 也 是 序列 ， 参 数 同样 是 
一 个 函数 和 一 个 序列 〈 可 以 是 列表 、 元 组 ， 生 成 器 不 行 ) 。 作 为 reduce 参数 的 函数 必须 是 输 
入 两 个 元 素 、 输 出 一 个 元 素 的 函数 。 只 有 这 样 的 函数 才能 缩小 序列 。 作 为 reduce 参数 的 这 个 
序列 中 必须 包含 2 个 以 上 的 元 素 ， 否 则 也 没 必 要 缩小 序列 了 。reduce 的 运作 过 程 大 致 是 先 取 
出 序列 中 的 前 2 个 元 素 ， 作 为 函数 的 参数 ， 等 待 函数 的 返回 值 ， 然后 将 这 个 返回 值 与 序列 中 
的 第 3 个 元 素 作为 函数 的 参数 ， 等 待 函 数 的 返回 值 …… 以 此 类 推 。 这 个 过 程 类 似 于 递归 。 既 
然 类 似 于 递归 ， 正 好 可 以 处 理 数 学 中 的 阶乘 (Python 中 并 没有 直接 的 阶乘 函数 ) ， 也 可 以 用 
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于 序列 求 和 。 两 者 都 是 将 多 个 数字 “合并 ”成 一 个 数字 。 在 Python 环境 下 执行 命令 : 





from functools import reduce 
li = [x for x in range(1,,5)] 
eat 
tu = tuple(li) 
tu 
reduce (lambda x, y: x*y, li) 
reduce (lambda x, y: x*y, tu) 
reduce (lambda x, y: x+y, tu) 
reduce (lambda x, y: x+y, li) 
sum(li) 
sum(tu) 
执行 结果 如 图 2-25 所 示 。 

CE 

:\Users\king>python 


thon 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v. 1900 64 bi 


|t (AMD64)] on win32 








>|from functools import reduce 


ype "help", "copyright", "credits" or "license" for more information. 
b» 








>>> li = [x for x in range(1, 5) 
p»» li 

[ 2, 3, 4] 

>> tu = tuple(1i) 

>> tu 

(1, 2, 3, 4) 





>>[reduce(lambda x, y: x*y, li) 





>>| reduce (lambda x, xty, tu) 








reduce (lambda x, x*y, li) 








SA reduce 


求 阶乘 


求 和 


ea 
ae 


^ 








图 225 


Python 高 阶 函 数 reduce 


Python 高 阶 函 数 并 不 常见 。 这 是 因为 总 有 蔡 代 函数 可 以 使 用 ， 但 就 简洁 而 言 ，Python 内 
置 函数 已 经 达到 了 目前 可 以 做 到 的 极致 ， 而 且 内 置 函数 使 用 快速 方便 ， 如 果 没 有 特殊 要 求 ， 
可 以 考虑 使 用 Python 内 置 函 数 。 
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Python 代码 格式 


Python 是 一 门 新 兴 的 编程 语言 ， 在 格式 方面 与 其 他 大 众 语言 相差 不 大 ， 但 也 有 它 独特 之 
处 ， 尤 其 是 代码 缩 进 。 在 其 他 的 编程 语言 中 ， 代 码 缩 进 大 多 是 为 了 美观 ， 程 序 、 函 数 的 开始 
结束 都 是 由 花 括 号 来 控制 的 。 在 Python 中 却 不 一 样 ， 程 序 、 代 码 块 的 开始 结束 都 是 由 缩 进来 
控制 的 。 所 以 ， 首 先 要 熟悉 的 就 是 Python 的 代码 缩 进 。 


2.5.1 Python 代码 缩 进 
Python 的 缩 进 一 般 来 说 是 4 个 空格 ， 先 严格 按照 这 种 缩 进 方法 来 写 个 测试 代码 。 
Class TestBlank (object): 
----|----|def init (self): 
clic ee maaa aa e A 
I====|self .0rl = v 





以 上 的 代码 中 ---- | 代表 4 个 空格 。 这 才 写 了 个 开头 就 得 40 个 空格 。 要 是 Python 只 能 这 
样 写 ， 那 还 是 选择 C 或 者 C++ 好 了 。 好 在 还 有 备用 方案 ， 可 以 用 Tab 键 来 蔡 代 4 个 空格 。 这 
样 的 好 处 就 是 少 按 了 很 多 次 空格 ， 坏 处 就 是 代码 不 好 移植 。 在 这 台电 脑 上 可 以 运行 的 程序 ， 
换 台 电脑 可 能 就 无 法 直接 使 用 了 。 

既然 变通 了 ， 那 就 变通 到 底 好 了 。 实 际 上 这 也 是 目前 流行 的 做 法 ， 在 自己 的 代码 编辑 器 
上 将 Tab 键 设置 成 4 个 空格 就 可 以 了 。 比 如 Windows 下 的 notepad++ 就 可 以 在 “设置 | 首选 
项 | 语言 ”菜单 中 选中 以 空格 蔡 代 。 其 他 的 Python IDE 中 都 有 类 似 的 设 定 ， 自 行 摸索 一 下 就 
可 以 了 。Linux 下 一 般 用 的 都 是 vi， 那 就 更 加 简单 了 。 在 /etc/vim/vimrc 或 者 ~/.vim/vimrc 中 添 
加 代码 : 


set ts=4 
set expandtab 


d 有 的 vi 默认 将 abstop 定义 成 了 8 个 空格 。 | 


Python 每 行 代码 前 的 缩 进 都 有 语法 和 逻辑 上 的 意义 。 在 严格 要 求 的 代码 缩 进 之 下 ， 代 码 
非常 整齐 规范 ， 赏 心 悦 目 ， 提 高 了 可 读 性 ， 在 一 定 程度 上 也 提高 了 可 维护 性 。 

至 于 Python 的 缩 进 规则 很 简单 。 简 单 说 就 是 ， 同 一 代码 块 纵向 对 齐 。 同 级 别 函 数 〈 不 存 
在 调用 关系 的 ) 纵向 对 齐 ， 每 次 对 齐 都 是 4 个 空格 的 倍数 。 如 果 违 反 这 些 规则 ，Python 是 不 
会 工作 的 ， 只 会 抛 出 一 条 冷冰冰 的 异常 通知 : SyntaxError: invalid syntax. 
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2.5.2 Python 命名 规则 

对 于 给 类 、 函 数 、 变 量 取 名 ， 只 要 不 违反 命名 规则 ， 取 任何 名 字 都 是 可 以 的 。 要 是 不 明 
白 类 、 函 数 、 变 量 的 作用 不 是 还 有 注释 吗 ? 的 确 是 这 样 的 。 但 如 果 能 “ 望 名 生 义 ” 那 又 何必 
去 添加 多 余 的 注释 呢 ? 另外 ， 统 一 的 命名 法 也 令 程 序 看 起 来 赏心悦目 。 编 写 代码 不 能 以 书法 
让 人 愉悦 ， 那 就 以 名 字 和 格式 让 人 愉悦 吧 ! 


1. 匈牙利 命名 法 


据说 匈牙利 命名 法 是 一 位 叫 Charles Simonyi 的 匈牙利 程序 员 发 明 的 ， 后 来 他 在 微软 待 
了 几 年 ， 于 是 这 种 命名 法 就 通过 微软 的 各 种 产品 和 文档 资料 向 世界 传播 开 了 。 这 种 命名 法 的 
出 发 点 是 把 变量 名 按 属 性 + 类 型 + 对 象 描述 的 顺序 组 合 起 来 ， 以 使 程序 员 定 义 变量 时 对 变量 的 
类 型 和 其 他 属性 有 直观 的 了 解 。 

这 种 命名 方法 的 确 很 好 。 可 惜 的 是 ，Python 的 参数 并 不 像 C. C++. Java 一 样 ， 声 明 变 
量 无 须 指 定 变量 类 型 。 而 且 在 没 用 到 Python GUI 编程 前 也 不 会 遇 到 属性 、 对 象 什 么 的 ， 所 以 
这 种 命名 法 还 是 等 到 使 用 GUI 编程 时 再 使 用 吧 。 

2 . 驼峰 命名 法 

驼峰 命名 法 又 称 骆驼 式 命名 法 〈Camel-Case) ， 是 计算 机 程序 编写 时 的 一 套 命名 规则 
(惯例 ) 。 正 如 它 的 名 称 CamelCase 所 表示 的 那样 ， 是 指 混 合 使 用 大 小 写字 母 来 构成 变量 和 
函数 的 名 字 。 

驼峰 式 命 名 法 就 是 当 变量 名 或 函 式 名 是 由 一 个 或 多 个 单词 连 在 一 起 而 构成 的 唯一 识别 字 
时 ， 第 一 个 单词 以 小 写字 母 开 始 ， 第 二 个 单词 的 首 字 母 大 写 或 每 一 个 单词 的 首 字母 都 采用 大 
写字 母 ， 例 如 myFirstName、myLastName， 这 样 的 变量 名 看 上 去 就 像 骆驼 峰 一 样 此 起 彼 伏 ， 
故 得 名 。 驼 峰 命 名 法 又 可 以 分 为 小 驼峰 命名 法 和 大 驼峰 命名 法 。 

变量 和 函数 一 般 用 小 驼峰 法 标识 ， 即 除 第 一 个 单词 之 外 ， 其 他 单词 首 字母 大 写 。 壁 如 : 


def getUrl 
urlSre = u'http://ww.baidu.com' 


变量 urlSrc 第 一 个 单词 是 全 部 小 写 ， 后 面 的 单词 首 字母 大 写 。 

相 比 小 驼峰 法 ， 大 驼峰 法 把 第 一 个 单词 的 首 字 母 也 大 写 了 ， 有 时 也 被 称 为 帕斯卡 
(pascal) 命名 法 ， 常 用 于 类 名 。 壁 如 : 

Class MyLog (object): 

3 . Guido 推荐 的 命名 规则 

Python 之 父 Guido 推荐 在 Python 中 使 用 的 命名 方法 ， 如 表 2-2 所 示 。 





75 


表 2-2 PythonName 








Internal 
Modules low_with_under _lower_with_under 
Packages low_with_under 
Classes CapWords _CapWords 


CapWords 
lower_with_under() _lower_with_under() 


Global/Class Constants | CAPS TITH UNDER | CAPS WITH UNDER 





Global/Class Variables | low with under lower with under 





Instance Variables low with under lower with under (protected) or ^ lower with under 
(private) 


Method Names low with under() _lower_with_under() (protected) or _ lower with under() 
(private) 

Function/Method low with under 

Parameters 


命名 约定 如 下 : 

€ 所 谓 “ 内 部 (Internal) ”表示 仅 模 块 内 可 用 ， 或 者 在 类 内 是 保护 或 私有 的 。 

@ 用 单 下 划 线 ( ) 开 头 表示 模块 变量 或 函数 是 protected 的 (使 用 import * from 时 不 会 
ae). 

© ”用 双 下 划 线 (_) 开 头 的 实例 变量 或 方法 表示 类 内 私有 。 

@ ”将 相关 的 类 和 顶级 函数 放 在 同一 个 模块 里 ， 不 像 Java， 没 必要 限制 一 个 类 一 个 模 
块 。 

€ ”对 类 名 使 用 大 写字 母 开头 的 单词 (如 CapWords， 即 Pascal 风格 ) ， 但 是 模块 名 应 
该 用 小 写 加 下 划 线 的 方式 (如 lower with under.py) ， 尽 管 已 经 有 很 多 现存 的 模块 
使 用 类 似 于 CapWords.py 这 样 的 命名 ， 但 现在 已 经 不 鼓励 这 样 做 ， 因 为 如 果 模 块 名 
碰巧 和 类 名 一 致 ， 就 会 让 人 困扰 。 

以 上 三 种 命名 规则 ， 可 以 任 选 一 种 或 者 组 合 使 用 ， 并 没有 强制 要 求 。 理 论 上 来 说 ， 选 择 


Python 推荐 的 命名 规则 比较 好 ， 这 也 是 Google 推荐 的 Python 命名 规则 。 读 者 当然 也 可 以 不 
接受 Google 建议 ， 选 择 自己 喜欢 的 命名 方法 ， 只 要 自己 能 看 懂 ， 交 流 无 障碍 就 可 以 了 。 








2.5.3 Python 代码 注释 
一 个 好 的 程序 员 ， 为 代码 添加 注释 是 编码 时 必须 要 做 的 ， 但 要 确保 注释 中 要 说 明 的 都 是 
重要 的 事情 ， 让 其 他 人 看 一 眼 就 知道 代码 是 干什么 用 的 。 注 释 在 任何 语言 的 代码 中 都 非常 重 
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要 ， 没 有 哪 一 种 语言 是 完全 不 需要 注释 的 。 在 Python 中 ， 注 释 还 有 其 他 的 作用 。Python 中 的 
注释 分 为 特殊 注释 、 单 行 注释 和 多 行 注释 。 

1 . Python 特殊 注释 

#!/usr/bin/python3 env 

#-*- coding:utf-8 -*- 

在 所 有 的 Python 代码 开头 都 有 这 两 句 〈 在 Windows 中 写 代 码 可 以 不 用 第 一 行 注释 ， 但 
为 了 移植 方便 ， 让 程序 能 直接 在 Linux 下 运行 还 是 加 上 这 行 比较 好 ) 。 

以 上 特殊 注释 的 第 一 行 目的 是 指明 Python 编译 器 位 置 。 第 二 行 则 指定 了 该 程序 使 用 的 字 
符 编码 。 指 定 字符 编码 还 可 以 写成 : 

#coding=utf-8 

Python 3 中 默认 的 就 是 utf-8 编码 ， 但 为 了 兼容 Python 2 还 是 加 上 这 句 比较 好 ，Python 2 
使 用 的 是 ascii 编码 。 


2 . Python 单行 注释 


单行 注释 很 简单 。 不 管 在 代码 的 任何 位 置 ， 只 要 是 # 之 后 的 都 是 注释 ， 但 仅 限 于 本 行 之 
内 ， 不 得 换行 。 单 行 注释 的 代码 如 下 : 


self.timeout = 5 # 网 络 超时 时 间 
self.fileName = './todayMovie.txt' (ffr fibi s 


单行 注释 不 需要 刻意 对 齐 ， 避 免 出 现 SyntaxError: invalid syntax 的 异常 。 

3 . Python 多 行 注释 

Python 中 的 多 行 注释 采取 的 是 三 个 单 引号 "或 者 三 个 双 引 号 ""。 如 果 多 行 注释 紧 跟 在 定 
义 类 或 者 定义 函数 之 后 ， 则 自动 变 成 了 该 类 或 者 函数 的 doc string。 什 么 是 doc string Wë? fj 
单 地 说 就 是 模块 、 类 、 函 数 的 功能 注释 。 

【示例 2-15】 写 一 个 简单 的 例子 ， 一 试 就 清楚 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 














vi annotation.py 


annotation.py 的 代码 如 下 : 


#!/usr/bin/env python3 


1 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst kingGhotmail.com' 
4 

5 class Annotation (object): 

6 '"'' 这 是 一 个 用 户 示范 注释 的 类 ， 

7 多 行 注释 如 果 在 类 或 者 函数 的 定义 之 后 ， 

8 将 被 默认 成 doc string。 
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9 这 里 注释 的 是 该 类 的 功能 性 说 明 ' t" 
10 def _init (Sel1E) 


aly self.run() 

12 

als} def run(self): 

14 "" "函数 里 的 doc string, 


15 这 里 注释 的 是 该 函数 的 功能 性 说 明 
16 注释 用 单 引号 和 双 引 号 没有 任何 区 别 "nn 


17 x = 333 # 定 义 了 一 个 int 类 型 的 变量 x 

18 print('x = $d' %x) 

19 "" "好 了 ， 这 里 是 单纯 的 注释 了 。 可 以 注释 多 行 ， 当 然 也 可 以 注释 单行 了 '"" 
20 

21 

22 if _ name == ' main ': 


23 a = Annotation() 


在 annotation.py 中 ， 第 17 行使 用 的 是 单行 注释 ， 第 19 行使 用 的 是 多 行 注释 ， 其 他 的 则 
是 类 和 函数 的 doc string。 至 于 doc string 怎么 显示 ， 也 挺 简单 的 。 打 开 Putty 连接 到 Linux, 
执行 命令 : 

cd code/crawler 

python3 

import annotation 

print(annotation.Annotation. doc ) 

print(annotation.Annotation.run. doc ) 


执行 结果 如 图 2-26 所 示 。 





2 


ing@debian8:~/code/crawler$ python3 ^ 
ython 3.4.2 (default, Oct 8 2014, 10:45:20) 
[GCC 4.9.1] on linux 
ype "help", "copyright", "credits" or "license" for more information. 
»» import annotation 
»» print(annotation.Annotation. doc ) 
是 一 个 用 户 示范 注释 的 类 ， 
行 注释 如 果 在 类 或 者 函数 的 定义 之 后 ， 
被 默认 成 doc string. 
星 注释 的 是 该 类 的 功能 性 说 明 
>> print(annotation.Annotation.run. doc ) 
数 里 的 doc string. 
里 注释 的 是 该 函数 的 功能 性 说 明 
em 
>> 





2-06 注释 和 doc string 


注释 就 介绍 到 这 里 。 在 编程 时 不 加 入 注释 ， 当 时 可 能 没什么 问题 ， 待 到 以 后 维护 代码 时 
就 会 发 现 那 是 相当 痛苦 的 事情 。 
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2 e 6 Python 调试 


调试 是 Python 编程 中 非常 重要 的 一 环 。 程 序 出 现 什么 问题 ， 查 看 抛 出 的 异常 。 或 者 处 处 
加 print 和 log 找 出 错误 点 ， 再 慢 慢 地 反 推 ， 是 可 以 找到 问题 、 解 决 问题 的 ， 但 是 有 更 简单 的 
方法 为 什么 非得 舍 易 取 难 呢 ? 

在 Linux 和 Windows 平台 有 很 多 第 三 方 调试 工具 ， 一 般 的 Python IDE 基本 也 自 带 了 调 
试 工具 。 工 具 太 多 了 反而 不 好 选择 ， 而 且 也 不 是 随手 就 能 找到 第 三 方 调试 工具 的 。 这 里 仅 示 
范 手 头 上 必定 有 的 Python 自 带 的 调试 工具 ， 其 他 的 第 三 方 调试 工具 都 大 同 小 异 ， 熟 悉 了 最 简 
单 的 ， 其 他 的 也 就 无 师 自 通 了 。 


2.6.1 Windows 下 IDLE 调试 
先 写 一 个 简单 的 程序 来 做 示例 。 既 然 是 调试 ， 最 好 的 选择 莫 过 于 多 次 调用 函数 的 阶乘 
了 ， 这 个 程序 简单 又 明显 ， 适 合用 来 做 示例 。 打 开 IDLE， 单 击 菜单 栏 的 File | New File， 创 
建 一 个 新 文档 ， 编 辑 代 码 ， 如 图 2-27 所 示 。 
[3 


File Edit Format Run Options Window Help 


#!/usr/bin/env python 
$-*- coding:GBK -+ 一 





def fac(n): 
if n==1 or mn==0: 
return 1 


E return n*fac(n-1) 
ef main(): 


print ( 这 是 一 个 求 阶乘 的 程序 \m 
n = raw_input ( 请 输入 一 个 正 
try: 


$ 
8:2) 


n = int (n) 
except ValueError: ? 

print ("输入 错误 ， 要 求 输入 一 个 正 整数 ， 退 出 重 来 吧 。’) 
print (’ Xd! = %d’ %(n,fac(n))) 





图 2-27 winDebugFactorial.py 


单 击 菜单 栏 File | Save As， 选 择 保存 位 置 后 将 文件 保存 为 winDebugFactorial.py。 下 面 开 
始 调试 winDebugFactorial.py。 
单 击 IDLE 菜单 栏 的 Run | Python Shell， 打 开 Python Shell， 如 图 2-28 所 示 。 
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File Edit Shell Debug Options Window Hel 
Python 3.6.4 (v3. 6. 4: d48ecebif = winDebugfactorialpy - CAUsers\king\python scrip iin 


on win32 


Type “copyright”, “credits” d|[ Fie Edt Format [Run] Opti ^ Help 


#!/usr/bin/env py [ Python Shell 
#-#- coding:utf-B 
Check e ALtHE 
def fac(n): Run F5 
if n—1 


T 
























n*fac(n-1) 


def mainQ: . 
print "这 是 一 个 
n= input C ifi Sfi 
tii 

n = int (n) 
except ValueError à 

print CHAME, 多 TESS, BEERE.” 
print (“%dl = Xd" Xy fac(n) 





BAADER) 


if _mame__ == ' main " 
main 


2-28 打开 Python Shell 


单 击 Python Shell 菜单 栏 的 Debug | Debugger, 177f Debug Control 窗口 ， 如 图 2-29 所 


File Edit Shell (Debug) Options Window Hep — — — —  — — — 
Python m 4 “ Go to File/Line J, OF 40) [MSC v.1900 64 bit (AMD64)] + 


on win3 
Type “copyright for more information. 





Stack Viewer 


[i oN) 
»> 1 Automopen Stack Viewer 





























图 2-29 打开 Debug Control 窗口 


然后 在 IDLE 窗口 为 代码 添加 断 点 。 所 谓 断 点 ， 简 单 地 说 就 是 调试 程序 时 需要 停顿 
一 般 在 函数 的 入 口 、 参 数 变化 的 行 添加 。 这 里 只 在 fac 函数 入 口 添加 一 个 断 点 。 pee fac 





函数 入 口 行 ， 再 右 击 ， 弹 出 的 快捷 菜单 中 选择 Set Breakpoint， 如 图 2-30 所 示 。 


File Edit Format Run Options Window Help 


#!/usr/bin/env python3 
#-+- coding:utf-B -+- 





= 
Paste 











Set Breskpoint 
Clear Breakpoint 





pt ValueError as 
print ("$A Hik, ERDA TESS, 退出 重 来 吧 .") 
print (7%dl = %d” Kn, fac(n))) 


if name _ == " main 


main( 











图 2-30 设置 断 点 


现在 可 以 开始 运行 调试 程序 了 ， 单 击 IDLE 窗口 菜单 栏 中 的 Run | Run Module， 如 图 2- 
31 所 示 。 


File Edit Shell Debug Options Window 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 20! r/bin/env py Python Shell 

on win32 $-9- coding:utf-§ 

Type "copyright", “credits” or "license Check Module Alt+x 


jw ON] 


© return nefac(n-1) 


ef main(): 
print (“这 是 一 个 求 阶乘 的 程序 \n") 
n= input (“请 输入 一 个 正 整数 :") 


int (n) 
xcept ValueError as 
print (“输入 错误 ， 要 六 输入 一 个 个 正 整数 
print (“kdl = Xd^ X(n, fac(n))) 


if | name. "loin s: 


mun T E 

















图 2-31 运行 调试 程序 
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单 击 Debug Control 窗口 的 Go 按钮 ， 开 始 运行 程序 ， 然 后 单 击 Debug Control 窗口 的 
Step 按钮 ， 逐 步 运行 程序 。 如 果 需 跳出 循环 或 者 跳出 函数 ， 则 单 击 Debug Control 窗口 的 Out 
按钮 。Debug Control 窗口 中 的 Stack 检查 框 显示 的 是 程序 当前 运行 位 置 ，Locals 检查 框 显示 
的 是 当前 变量 的 值 ， 如 图 2-32 所 示 。 


File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2.T.11:6d1b6a68f775, Dec 5 2015, 20:40:30) DISC v. 1500 64 bit (~ 
AND64)] on win32 
Type “copyright”, “credits” or "license()" for more information. 


EA 
(DEBUG ON] 
» 








TDECCLT RESTART: C: \Users\king\Desktop\testWinDebugFactorial. py ========== 
这 是 一 个 求 阶乘 的 程序 


请 输入 一 个 正 整 球 :4 





Ln: 10 Col:0 


F Stack I Source 
Go | Step | Over | Out | Quit 
F Locals [^ Globals 


testWinDebugFactorial.py:5: fac) 


l'bdb'.runÜ, line 400: exec cmd in globals, locals 

| main. '«module»() line 21: mai 

10, line 17: print(‘%d! = 96d" 96(n,facin))) 
8: return n*fac(n-1) 

fac() line 8: return n'fac(n-1) 








Locals 


2-32 Debug Control 


通过 Debug 调试 很 容易 发 现 程序 中 的 错误 之 处 。 虽 然 这 个 Debug 工具 比较 简陋 ， 但 基本 
功能 都 还 齐全 ， 算 是 比较 好 用 的 一 款 Debug 工具 了 。 


2.6.2 Linux 下 pdb 调试 

Linux 下 的 Python 调试 工具 也 很 多 ， 最 简单 、 最 方便 的 可 能 就 是 pdb 了 。pdb 功能 齐 
全 ， 使 用 方便 ， 命 令 几 乎 是 一 模 一 样 的 。 先 写 一 个 示范 程序 ， 用 pdb 调试 一 下 。 

【示例 2-16】 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi linuxBugListExtremum.py 


linuxBugListExtremum.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 $-*- coding: utf-8 -*- 

3 author  - 'hstking hst_king@hotmail.com' 
4 

5 import cls 
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第 2 章 Python 基础 





49 maxNum = getMaxNum(numList) 
50 print ( "列表 中 最 大 值 为 :sd' $maxNum) 
51 minNum = getMinNum(numList) 
52 print ( "列表 中 最 小 值 为 :sd' $minNum) 


linuxBugListExtremum.py 程序 让 用 户 输入 一 组 整数 放 入 列表 中 ， 然 后 从 列表 中 挑选 出 最 
大 值 和 最 小 值 。 以 linuxBugListExtremum.py 为 例 ， 使 用 pdb 调试 。 
第 5 4714 import cls 导入 的 是 一 个 自 定义 模块 cls.py。 代 码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding: utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


import platform 


import os 


def clear(): 


© 0-00 50M Hd 


OS = platform.system() 


if OS == 'Windows': 


RoR 
|o 


os.system('cls') 


m 
N 


else: 


S 
w 


os.system('clear') 


FRR 
ona 


E 
H 
mh 
5 
E 
" 
Li 
| - 
E: 
p. 
5 
| = 


18 E pass 
下 面 先 简单 地 介绍 一 下 pdb. pdb 在 Python 中 是 以 模块 的 形式 出 现 的 ， 它 是 Python 的 标 
准 库 ， 可 以 在 Python 交互 环境 中 使 用 ， 如 图 2-33 所 示 。 


EP king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 

Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information. 
»»» import pdb 

»»» import linuxBugListExtremum 

»»» pdb.run('linuxBugListExtremum.main') 

> «string»(1)«module»() 

(Pdb) E 





2-33 ”模块 式 使 用 pdb 


也 可 以 在 程序 中 间 插 入 一 段 程序 ， 相 当 于 在 一 般 IDE 里 面 打 上 断 点 ， 然 后 启动 debug, 
不 过 这 种 方式 是 hardcode 的 ， 如 图 2-34 所 示 。 
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8 king@debian8: ~/code/crawler 




















getMaxNum (List) : 
à 
import pdb 
pdb.set trace() 
num = List[0] 
i in List[ 
num <= 
num = i 
num 
jetMinNus (List) : 
# 获 取 列 表 中 最 小 值 
num = List[0] 
i in List[1:]: 
num >= i: 
num = i 
num 
. name  -- ' main 


numList = getList() 
maxNum = getMaxNum (numList) 
rint(' 列 表 中 最 大 值 为 :3d，SmaxNum) 





50,1 


931 v 








图 2-34 程序 内 使 用 pdb 


将 pdb 放 入 程序 内 ， 在 运行 程序 时 ， 运 行 到 pdb 行 后 就 暂停 了 ， 


序 。 这 种 方式 需要 改动 程序 ， 比 较 麻烦 。 


然后 开始 


运 





行 pdb 程 


笔者 更 喜欢 最 后 一 种 方法 ， 即 用 命令 行 启动 目标 程序 ， 加 上 -m 参数 调用 pdb 模块 ， 如 图 


2-35 所 示 。 


B® king@debian8: ~/code/crawler 








king@debian8:~/code/crawler$ 


python3 -m pdb linuxBugListExtremum.py 








> /home/king/code/crawler/linuxBugListExtremum.py (3) «module» (]) 
-> author  - 'hstking hst kingéhotmail.com" 
(Pdb) ? 


Documented commands (type help <topic>): 


rv 
quit s 
longlist r 
interact n restart step 
next return tbreak 
enable jump P retval u 
exit 1 PP run unalias 


clear 
commands 
condition 
cont 
continue 


source 


display 
down j 


2-35 ”命令 调用 pdb 模块 
图 2-35 显示 了 pdb 的 所 有 命令 ， 这 里 只 说 明 最 常用 的 几 个 : 
list: 显示 程序 ， 可 以 带 参 数 。 比 如 显示 第 5 41 list 5. 


run: 开始 运行 程序 。 

step: 单 步 运行 ， 进 入 函数 内 部 。 
next: 单 步 运行 ， 不 进入 函数 内 部 。 
print: 显示 参数 。 

quit: 退出 pdb。 


undisplay 


whatis 
where 





break: 添加 断 点 。 比 如 在 第 5 行 添加 断 点 break 5, # getList 函数 添加 断 点 break. 
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下 面 开始 调试 linuxBugListExtremum.py 程序 。 执 行 命令 : 
python -m pdb linuxBugListExtremum.py 


ist 52 

break getList 
break getMaxNum 
break getMinNum 
break 


执行 结果 如 图 2-36 所 示 。 








(Pdb) [break getList 








(Pdb) [break getMaxNum 














(Pdb) [break getMinNum 





(Pdb) break 

Num Type Disp Enb 

1 breakpoint keep yes 
breakpoint keep yes 





2 
8 
3 breakpoint keep yes 
8 
( 


Pab) lj 


SP kingOdebian&: ~/code/crawler 


> /home/king/code/crawler/1inuxBugListExtremum. py (3) <module>() 
-> __author__ = 'hstking hst_king@hotmail.com' 


(Pdb) list 52 
47 if name  -- ' main ': 

48 numList = getList() 

49 maxNum = getMaxNum(numList) 

50 print (‘92 BOX (Xs iid! tmaxNum) 
51 minNum = getMinNum(numList) 

52 print(' 列 表 中 最 小 值 为 :5$d，sminNum) 
[EOF] 


Breakpoint I at 7home/king/code/crawler/linuxBugListExtremum.py:8 
Breakpoint 2 at /home/king/code/crawler/linuxBugListExtremum.py:28 


Breakpoint 3 at /home/king/code/crawler/linuxBugListExtremum.py:38 


Where 
at /hone/king/code/crawler/linuxBugListExtremum.py:8 
at /home/king/code/crawler/linuxBugListExtremum.py:2 


at /hone/king/code/crawler/linuxBugListExtremum.py:3 





执行 命令 run， 开 始 运行 程序 ， 函 数 外 的 行使 用 next 单 步 运行 ， 到 了 函数 入 口 后 使 用 


2-36 pdb 加 入 断 点 


step 单 步 运行 ， 中 途 使 用 print 命令 随时 监视 变量 变化 ， 如 图 2-37 所 示 。 
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> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (15) getList () 


-> print (u' 结 束 构建 列表 ， 请 按 回 车 ') 
(Pdb) 
结束 构建 列表 ， 请 按 回 车 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum. py (16) getList () 
-> num = raw_inpuc(' 请 输入 一 个 : 


(Pab) 


请 输入 一 个 整数 :10 


Xen 


 /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (17)getList() 


-> if num == ' 
(Pdb) print num 
1o 

(Pdb) next 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (19) getList () 


|» /mnt/disk/sync/code/crawler/testLinuxBugListExtremum. py (20) getList () 


|-> num = int (num) 
(Pdb) 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (25)getList() 


|-> numList.append (num) 
(Pdb) 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (12)getList () 


|-» while num: 
(Pdb) print numList 








2-37 ”调试 linuxBugListExtremum.py 





调试 完毕 后 输入 quit, BH pdb. pdb 没有 GUI， 用 起 来 似乎 没有 那么 直观 ， 习 惯 了 还 挺 
方便 。 如 果 偏 爱 GUI， 那 还 是 找 一 个 Python IDE IE, Eclipse + pydev 就 很 方便 ， 支 持 多 个 操 


方便 。 








pdb 是 Python 调试 工具 ， 也 是 Python 的 标准 模块 之 一 ， 所 以 也 可 以 用 import 将 其 导入 程 
| 序 中 使 用 。 在 Windows 中 也 可 以 使 用 pdb。 











2.7 sang 


Python 的 知识 点 远 不 止 这 么 一 点 点 ， 如 果 读 者 了 解 了 这 些 ， 又 有 一 点 其 他 编程 语言 的 基 
础 ， 基 本 就 可 以 用 Python 来 解决 一 些小 问题 了 。 如 果 需 要 继续 深入 ， 请 自行 参考 教程 或 自行 
搜索 。Python 是 一 门 黏 性 非常 强 的 语言 ， 可 以 调用 别 的 语言 来 编写 自己 的 模块 ， 用 来 弥补 自 
己 的 不 足 ， 因 此 也 被 称 为 胶水 语言 。 虽 然 Python 易学 难 精 ， 但 它 是 一 个 非常 有 用 的 编程 语 
言 ， 通 用 各 大 平台 ， 值 得 投入 精力 深入 学 习 。 
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m3 


第 3 章 
< 简单 的 Python 脚本 > 


Python 的 基础 部 分 已 经 学 完了 ， 下 一 步 可 以 开始 写 Python 程序 了 。 因 为 Python 程序 无 
须 编 译 直接 执行 ， 所 以 也 可 以 称 之 为 脚本 。 在 这 里 笔者 把 大 一 点 的 、 复 杂 点 的 Python 脚本 称 
为 程序 ， 把 简单 的 Python 程序 称 为 脚本 。 


九 九 乘法 表 


编写 程序 ， 由 简 到 难 。 似 乎 没有 比 九 九 乘法 表 更 简单 的 程序 了 吧 ， 那 就 从 九 九 乘法 表 开 
始 。Python 的 结构 集合 了 C 和 C++ 的 优点 ， 语 法 结构 也 相差 不 远 ， 在 编程 时 只 需 重点 注意 格 
A CERE Tab HE) 就 可 以 了 。 


3.1.1 Project 分 析 

九 九 乘法 表 ， 从 小 学 就 开始 学 习 ， 每 个 人 都 会 背 。 如 果 把 这 个 表格 排列 整齐 一 点 就 会 发 
现 它 呈现 出 一 个 边 长 为 9 的 直角 三 角形 。 这 个 图 形 从 左 到 右 横向 是 呈 线 性 递 加 的 。 这 样 的 话 
给 出 一 个 for 循环 正 合适 〈while 循环 也 可 以 ， 给 while 循环 加 上 一 个 合适 的 出 口 条 件 就 和 for 
循环 没什么 区 别 了 ) 。 而 纵向 是 也 有 限 〈9 行 ) 递 加 的 ， 再 给 出 一 个 for 循环 就 可 以 了 。 














3.1.2 Project 实施 
【示例 3-1】 编 写 table9x9.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi table9x9.py 


table9x9.py 的 代码 如 下 : 
1 #!/usr/bin/env Python3 
2 $-t coding: utE=8 Si 
3 author = 'hstking hst_king@hotmail.com' 


简单 的 Python 脚本 





按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 table9x9.py。table9x9.py 用 于 打印 一 个 九 九 乘 
法 表格 。 执 行 命令 : 
| python3 tablesxgpy 5000000 
得 到 的 结果 如 图 3-1 所 示 。 
EP king@debian8: ~/code/crawler 
pr aaa rert python3 table9x9.py ^ 


| 开始 打印 9x9 的 乘法 表 
1Xl= 1 
















1X2- 2 2X2- 4 

1X3- 3 2X3- 6 3X3- 9 

1X4- 4 2X4- 8 3X4-12 4X4-16 

1X5- 5 2X5-10 3X5-15 4X5-20 5X5-25 

1X6- 6 2X6-12 3X6-18 4X6-24 5X6-30 6X6-36 

1X7- 7 2X7-14 3X7-21 4X7=28 5X7-35 6X7-42 7X7=49 

1x8= 8 2X8=16 3X8-24 4X8=32 5X8-40 6X8-48 7X8-56 8X8-64 


1X9- 9 2X9-18 3X9-27 4X9-36 5X9-45 6X9=54 7X9-63 BX9=72 9X9=81 





king@debian8:~/code/crawler$ |i 


图 3-1 乘法 表 
十 几 行 的 代码 ， 如 果 愿 意 精简 ， 甚 至 可 以 把 代码 压缩 到 十 行 以 内 。 足 够 简单 了 吧 。 
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斐 波 那 契 数列 


斐 波 那 契 数列 (Fibonacci sequence) 又 称 黄金 分 割 数 列 ， 因 数学 家 列 晶 纳 多 。 斐 波 那 契 
(Leonardoda Fibonacci ) 以 兔子 繁殖 为 例子 而 引入 ， 故 又 称 为 “兔子 数列 ”， 指 的 是 这 样 一 
个 数列 : 0、1、1、2、3、5、8、13、21、34…… 在 数学 上 ， 斐 波 那 契 数列 以 如 下 递归 的 方法 
定义 : F (0) =0、F CD =1, F (n) =F(n-1)+F(n-2) (nZ2, nEN*) 。 


3.2.1 Project 分 析 

从 斐 波 那 契 数列 的 定义 上 可 以 看 出 ， 求 斐 波 那 契 数列 最 正统 的 方法 就 是 函数 递归 。 不 
过 ， 对 于 Python 而 言 ， 还 有 更 加 简单 的 方法 操作 。 这 得 益 于 Python 独 有 的 数据 类 型 一 一 列 
Ko Python 列表 可 以 使 用 append 方法 在 列表 的 尾部 追加 数据 。 这 样 一 来 ， 求 斐 波 那 契 数 列 就 
成 了 简单 的 加 法 游戏 ， 无 须 递归 求解 了 《〈 可 惜 C 语言 中 没有 变 长 数列 ， 否 则 在 C 语言 中 求 斐 
波 那 契 数 列 也 很 简单 ) 。 





3.2.2 Project 实施 
【示例 3-2】 编 写 ffbonacci.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi fibonacci.py 


fibonacci.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 #=-*= coding; utf-8 -*- 
. author  - 'hstking hst_king@hotmail.com' 


"7 返回 一 个 fibonacci MH ''' 
def init _ (sélf): 


3 

4 

5 

6 class Fibonacci (object): 

7 

8 

9 self.fList = [0,1] # 设 置 初始 列表 


10 self.main() 

ai 

12 def main(self): 

13 listLen = input (' 请 输入 fibonacci 数列 的 长 度 (3-50) : ') 

14 self.checkLen (listLen) 

15 while len(self.fList) < int(listLen): 

16 self.fList.append(self.fList[-1] + self.fList[-2]) 
i? print (' 得 到 的 fibonacci 数列 为 : \n $s ' $self.fList) 

18 
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19 def checkLen(self,lenth): 


20 lenList = map(str,range(3,51)) 

2 if lenth in lenList: 

22 print (' 输 入 的 长 度 符合 标准 ， 继 续 运行 ') 

23 else: 

24 print (' 只 能 输入 3-50， 太 长 了 不 是 算 不 出 ， 只 是 没 必要 ' ) 
25 exit() 

26 

27 

28 if name == ' main ': 


29 f = Fibonacci() 


4% Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 fibonacci.py. fibonacci.py 用 于 创建 一 个 定 长 
列表 ， 该 列表 就 是 斐 波 那 契 数列 。 执 行 命令 : 


python fibonacci.py 
得 到 的 结果 如 图 3-2 所 示 。 


iB king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 fibonacci.py 
请 输入 fibonacci 数 列 的 长 度 (3-50) :20 

输入 的 长 度 符合 标准 ， 继 续 运 行 

得 到 的 fibonacci 数 列 为 : 

[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1 
4181] 

king&debian8:-/code/crawler$ fj 





FA 3-2 fibonacci 数列 
Python 有 独特 的 列表 类 型 ， 在 获取 递归 队列 时 有 独特 的 优势 。 


3.3 概率 计算 


将 理想 状态 绝对 无 误差 的 10 个 同样 的 小 球 从 1~10 标号 ， 然 后 随机 从 中 选 出 1 个 小 球 。 
如 果 选 取 的 次 数 足 够 多 ， 就 可 以 计算 各 个 小 球 被 选取 出 来 的 概率 。 编 写 一 个 Python 程序 来 算 
一 算 ， 看 看 老 天 偏 爱 哪个 数 。 


3.3.1 Project 分析 


这 是 一 个 随机 数 的 问题 。Python 有 个 random 模块 ， 专 门 用 来 解决 这 类 问题 。 据 说 
Python 用 random 选取 出 来 的 随机 数 都 是 伪 随 机 数 。 不 过 也 没关系 ， 只 需要 算出 大 致 的 结果 
就 可 以 了 。 没 计算 之 前 ， 个 人 认为 每 个 球 被 选取 出 来 的 概率 都 一 样 。 下 面 就 来 算 算 看 。 
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3.3.2 Project 实施 
【示例 3-3 】 编 写 ball.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


ball.py 的 代码 如 下 : 


执行 命令 : 
| 
得 到 的 结果 如 图 3-3 所 示 。 








iB kingGdebian8: ~/code/crawler 一 口 X 


输入 测试 的 次 数 : 10000 ^ 
获取 第 1 号 球 的 概率 为 0.039900 

获取 第 2 号 球 的 概率 为 0.102400 

获取 第 3 号 球 的 概率 为 0.097600 

获取 第 4 号 球 的 概率 为 0.098300 

获取 第 5 号 球 的 概率 为 0.097200 

获取 第 6 号 球 的 概率 为 0.097400 

获取 第 7 号 球 的 概率 为 0.103300 

获取 第 8 号 球 的 概率 为 0.097400 

获取 第 9 号 球 的 概率 为 0.105400 

获取 第 10 号 球 的 概率 为 0.101100 
king@debian8:~/code/crawler$ Python3 ball.py 
输入 测试 的 次 数 : 1000000 

获取 第 1 号 球 的 概率 为 0.100442 

获取 第 2 号 球 的 概率 为 0.100433 

获取 第 3 号 球 的 概率 为 0.039782 

获取 第 4 号 球 的 概率 为 0.039890 

获取 第 5 号 球 的 概率 为 0.039387 

获取 第 6 号 球 的 概率 为 0.099721 

获 号 球 的 概率 为 0.039915 

获 


获取 第 10 号 球 的 概率 为 0.099875 


king@debian8:~/code/crawlers fj v 


图 3-3” 选 球 概率 


果然 如 此 ， 每 个 球 选取 的 概率 差不多 。 选 取 的 次 数 越 多 ， 这 个 趋势 就 越 明显 。 也 就 是 
说 ， 在 理想 状态 下 ， 所 有 球 被 选取 的 概率 是 一 样 的 。 




















这 种 选取 小 球 概率 的 计算 方法 只 是 一 种 理想 状态 的 算法 。 类 似 于 丢 硬 币 出 现 正 反面 的 概 
| 率 ， 理 论 上 应 该 是 一 半 对 一 半 ， 但 实际 上 由 于 硬币 材质 的 缘故 ， 丢 硬币 的 次 数 越 多 ， 正 
反面 出 现 的 概率 差距 就 越 大 。 








3.4 读 写 文件 


读 写 文件 是 最 常见 的 IO 操作 。Python 内 置 了 读 写 文件 的 函数 ， 用 法 和 C 的 读 写 文件 非 
常 类 似 。 在 磁盘 上 读 写 文件 的 功能 都 是 由 操作 系统 提供 的 ， 现 代 操 作 系 统 不 允许 普通 的 程序 
直接 操作 磁盘 ， 所 以 ， 读 写 文件 就 是 请 求 操作 系统 打开 一 个 文件 对 象 〈 通 常 称 为 文件 描述 
符 ) ， 然 后 ， 通 过 操作 系统 提供 的 接口 从 这 个 文件 对 象 中 读 取 数据 〈 读 文件 ) ， 或 者 把 数据 
写 入 这 个 文件 对 象 〈 写 文件 ) 。 


3.4.1 Project 分 析 
Python 使 用 内 置 函数 open 来 读 写 文件 。 查 看 open 函数 的 帮助 文档 。 执 行 命令 : 


Python3 
help (open) 
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执行 的 结果 如 图 3-4 所 示 。 





Help on built-in function open in module _ builtin : 


lopen(...) 
open(name[, mode[, buffering]]) -» file object 


Open a file using the file() type, returns a file object. This is the 
preferred way to open a file. See file. doc for further information. 


4 [m] 








3-4 help open 


图 3-4 中 的 Name 是 需要 操作 的 文件 名 ，mode 是 模式 。 这 个 模式 共有 7 种 ， 如 表 3-1 所 


表 3-1 Python Open Mode 











模式 说 明 

r 以 读 方式 打开 文件 ， 可 读 取 文件 信息 

w 以 写 方式 打开 文件 ， 可 向 文件 写 入 信息 。 如 文件 存在 ， 则 清空 该 文件 ， 再 写 入 新 内 容 
a 以 追加 模式 打开 文件 ， 如 果 文 件 不 存在 ， 则 创建 

rt 以 读 写 方式 打开 文件 ， 可 对 文件 进行 读 和 写 操作 

wt 消除 文件 内 容 ， 然 后 以 读 写 方式 打开 文件 

at 以 读 写 方式 打开 文件 ， 并 把 文件 指针 移 到 文件 尾 

b 以 二 进 制 模式 打开 文件 ， 而 不 是 以 文本 模式 打开 


这 7 种 模式 可 以 组 合 使 用 。 下 面 将 用 Python 创建 一 个 文件 ， 并 写 入 、 读 取 内 容 。 


3.4.2 Project 实施 
【示例 3-4】 编 写 operaFile.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 
cd code/crawler 
vi operaFile.py 
operaFile.py 的 代码 如 下 : 
1 #!/usr/bin/env python3 


#-*- coding: utf-8 -*- 
. author = 'hst king hst_king@hotmail.com' 


2 

s 

4 

5 import os 
6 

7 def operaFile(): # 创 建文 件 

8 print(' 创 建 一 个 名 字 为 test .txt 的 文件 ， 并 在 其 中 写 入 Hello Python') 
9 Print(' 先 得 保证 test .txt 不 存在 ') 
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10 os.system('rm test.txt') 


11 os.system('ls -1 test.txt') 

12 print (' 现 在 再 来 创建 文件 并 写 入 内 容 \n') 
13 fp = open('test.txt', 'w') 

14 fp.write('Hello Python') 


15 fp.close() 

16 print (' 不 要 忘记 用 close 关闭 文件 哦 ') 

17 print (' 再 来 看 看 test .txt RAGE, AAA\n') 
18 os.system('ls -1 test.txt') 

19 os.system('cat test.txt') 

20 print('Mn') 

2T 

22 print (' 如 何 避 免 open 文件 失败 的 问题 呢 ? ") 

23 print (' 使 用 with as 就 可 以 了 ') 


24 with open('test.txt', 'r') as fp: 
25 st - fp.read() 

26 print('test.txt 的 内 容 为 :%s' Sst) 
27 

28 if name  -- ' main "': 


29 operaFile() 
执行 命令 : 
Python operaFile.py 


得 到 的 结果 如 图 3-5 所 示 。 





P king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 operaFile.py 

创建 一 个 名 字 为 test.txt 的 文件 ， 并 在 其 中 写 入 Hello Python 
先 得 保证 test.txt 不 存在 

rm: 无 法 删除 "test.txt": 没有 那个 文件 或 目录 

ls: 无 法 访问 test.txt: 没有 那个 文件 或 目录 

现在 再 来 创建 文件 并 写 入 内 容 


不 要 忘记 用 ciose 关 闭 文件 哦 
再 来 看 看 test .txt 是 否 存在 ， 和 内 容 


-rw-r--r-- 1 king king 12 1 月 19 15:04 test.txt 
Hello Python 


如 何 避 免 open 文 件 失败 的 问题 呢 ? 
使 用 with as 就 可 以 了 

test .txt 的 内 容 为 :Hello Python 
kingêdebian8:~/code/crawler$ JJ 





3-5 Python 读 写 文件 


Python 对 文件 的 操作 跟 C 类 似 ， 但 功能 远 比 C 要 丰富 。 例 如 按 行 读 取 文件 ， 多 行 读 取 文 


件 等 。C 语言 的 优势 是 快 ， 而 Python 的 优势 是 模块 多 、 功 能 丰富 。 
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类 的 继承 与 重 载 


Python 面向 对 象 编程 。 可 以 简单 地 理解 为 Python 对 类 的 使 用 。 基 本 上 与 C++ 或 者 Java 
的 类 相同 ， 没 有 C++ 和 Java 的 类 那么 复杂 ， 但 类 的 继承 、 重 载 等 特性 还 是 有 的 。 


3.5.1 Project 1 分 析 


在 第 2 章 中 展示 了 类 的 最 基本 用 法 ， 需 要 注意 的 是 Python 2 的 类 是 分 为 两 种 ， 一 种 是 经 
典 类 ， 另 一 种 是 新 类 。Python 经 典 类 的 典型 写法 如 下 : 
class ClassicClass: 
'"Python2 中 的 经 典 类 "' 
def init (self): 
LT 
print("I am X init function for classic class") 
def — del (self): 
DLEE 


print("I am del function, executes when destroyed instance object") 


新 类 是 继承 于 object 基 类 的 类 (新 类 和 经 典 类 的 区 别 就 在 于 是 否 继承 于 object X) 。 
Python 3 的 类 都 是 新 类 。 也 就 是 说 新 类 将 成 为 潮流 方向 ， 所 以 要 尽 可 能 使 用 新 类 。Python 新 
类 的 典型 写法 如 下 : 

class NewStyleClass (object): 

'"Python3 中 的 新 类 "' 

def _init (self): 

"构造 函数 "， 

print(“I am _init_ function for new styhle class") 
def del (self): 

EIEE A 


print("I am del function, executes when destroyed instance object") 


不 管 是 新 类 还 是 经 典 类 ， 其 中 的 _init_ 函 数 是 构造 函数 ， 常 用 于 初始 化 对 象 。_del _ 


函数 是 析 构 函数 ， 这 个 函数 只 在 对 象 销毁 时 才 会 运行 ， 因 为 Python 的 垃圾 回收 机 制 更 像 
Java， 是 自动 回收 的 。_del_ 作 用 有 限 ， 一 般 很 少 使 用 。 


1. 类 的 继承 


先 来 看 Python 2$ CHA) 的 继承 。 使 用 一 个 最 简单 的 类 和 object 类 来 比较 一 下 。 打 开 
Putty， 连 接 到 Linux. PUTAS: 














Python3 
class SimpleClass (object): 
pass 
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class SimpleClass2 (SimpleClass): 
pass 


dir (object) 
dir(SimpleClass) 
dir(SimpleClass2) 


执行 结果 如 图 3-6 所 示 。 
aD king@debian8 


Type "help", "copyright", "credits" or "license" for more information. ^ 
>>> class SimpleClass (object): 
pass 





>>> class SimpleClass2(SimpleClass): 
bsa pass 


>>> dir (object) 








[' class ', ' delattr_', ' doc ', ' format ', ' getattribute ', ' hag 
f ', ' init ', ' new ', '_reduce_', '_reduce_ex_', ' repr ', ' setat 
r ', ' sizeof ", ' str "'", ' subclasshook "'] 

































































[' class ', ' delattr ', ' dict ', ' doc ', ' format ', ' getattribut| 

| C, '?O hash  ", 'O init "', ' module "', ' new ", ' reduce ", ' reduce qa 
', "^ repr "', ' setattr "', ' sizeof '; ' str "', ' subclasshook "', ' | 

weakref '] 

>>> 

>>> dir (SimpleClass2) 

[' class ', '_delattr_', '_dict_', '_doc_', '_format_', ' getattribut 
', ' hash ", ' init ', ' module ', ' new ', ' reduce ', ' reduce e 

上 ", C7 repro C, '"__setattr_', '_sizeof_', '_str_', ' subclasshook "', '_ 

weakref '] 

>>> 1] v 

图 3-6 类 的 继承 


发 现 继承 object 的 新 类 SimpleClass 与 object 类 的 函数 (方法 ) 基本 是 一 致 的 。 不 一 致 的 
几 处 是 基 类 与 继承 类 的 区 别 。 而 继承 与 SimpleClass 的 新 类 SimpleClass2 与 SimpleClass 的 函 
数 (方法 ) 是 完全 一 致 的 。 

如 果 有 足够 的 兴趣 ， 可 以 测试 一 下 SimpleClass3 继承 于 SimpleClass2，SimpleClass4 继 
承 于 SimpleClass3……， 一 直到 SimpleClass100。 然 后 用 dir 来 查看 SimpleClass100 的 函数 ， 
会 发 现 object 包含 的 函数 SimpleClass100 全 部 都 有 。 这 不 是 因为 SimpleClass100 跟 object 类 
有 什么 直接 关系 ，SimpleClass100 类 只 跟 它 的 父 类 〈 继 承 的 类 SimpleClass99) 有 关 。 这 种 联 
系 有 点 类 似 于 人 类 基因 。 孩 子 的 基因 总 是 从 父母 遗传 的 ， 只 跟 父 母 有 关 。 如 果 究 根 结 底 ， 不 
断 地 上 滴 ， 所 有 人 类 的 基因 都 归结 于 某 一 只 猿 猴 。 在 Python 中 object 类 就 是 那 只 最 初 的 猿 
猴 。 

因为 所 有 的 新 类 都 继承 于 (或 者 间接 继承 于 ) object， 所 有 的 新 类 都 具有 相同 的 “ 基 
因 ”。 而 经 典 类 由 于 天 生 的 “缺陷 ”， 不 可 能 有 共同 的 “基因 ”。 也 许 这 也 是 为 什么 Python 
的 后 续 版 本 Python 3 会 选择 新 类 而 放弃 经 典 类 的 原因 之 一 吧 。 
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2. 类 的 重 载 

再 来 看 看 函数 的 重 载 。 函 数 的 重 载 很 简单 ， 就 是 继承 于 父 类 的 函数 并 不 适合 当前 需求 。 
那 就 将 这 个 继承 于 父 类 的 函数 重新 写 入 ， 做 成 一 个 符合 需求 的 函数 。 最 常用 的 函数 重 载 就 是 
. init 函数 了 。 每 个 类 都 有 _ init 函数， 实例 化 对 象 不 同 ， 每 个 类 的 _init 函数 必定 是 不 
同 的 。 但 这 个 _init 函数 都 是 继承 得 来 的 ， 所 以 每 个 类 (新 类 ) 的 _init 函数 都 被 重 载 
了 。 还 是 以 人 类 为 例 ， 如 果 是 完全 的 继承 ， 没 有 重 载 。 至 今 的 人 类 都 还 是 用 四 脚 走路 。 正 是 
由 于 一 代 又 一 代 不 断 的 重 载 ， 人 类 不 断 地 修改 “类 函数 ”来 更 好 地 适应 环境 ， 才 造成 了 今天 
人 类 既 有 相同 的 共性 ， 又 有 不 同 的 特性 。 








3.5.2 Project 1 实施 

【示例 3-5】 编 写 inheritClass.py， 用 于 演示 新 类 的 继承 。 打 开 Putty 连接 到 Linux， 执 行 
命令 : 

cd code/crawler 


vi inheritClass.py 


inheritClass.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 4 coding: utf=8 =*= 
3 author = 'hstking hst_king@hotmail.com' 


4 
5 class Ape(object): # 猿 猴 

6 T ' 以 猿 猴 形态 时 ， 手 、 腿 、 眼 睛 的 数量 1 1n 

7 eyes = 2 # 这 几 个 变量 是 类 保护 变量 ， 是 可 以 “遗传 ”给 子 类 的 。 
8 

9 


arms = 0 
legs = 4 
10 
i def init (self): 
12 ter init 函数 一 般 最 主要 的 作用 就 是 初始 化 
13 self.name = 'ape' 
14 self.show() 
15 
16 def show (self): 
17 print ("I am a $s" %self.name) 
18 print ("I have %d eyes" %self.eyes) 
19 print ("I have %d arms" %self.arms) 
20 print("I have %d legs" %self.legs) 
21 print ("###### The show is over #####\r\n") # 这 是 使 用 \r\n 作为 分 段 符 
是 为 了 兼容 Widnows 
22 
23 
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24 class Homohabilis (Ape): # 能 人 
"能 人 还 是 用 4 RER 
def init (self): 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 


self.name = 'Homohablilis' 
self.show() 


class Homoerectus (Homohabilis): # 直 立 人 
" 7" 直立 人 用 两 腿 走 路 ， 解 放 了 双手 ttt 


arms 


legs 2 


2 # 这 里 重 载 了 手 和 腿 的 数量 


def init (self): 
self.name = 'Homoerectus' 
self.show() 


class Homosapiens (Homoerectus): ##A 
"7 " 智 人 也 是 用 双 腿 走 路 ， 直 立行 走 '" 
def init (self): 
self.name = 'Homosapiens' 
self.show() 


Gib nawe == 
ape = Ape() 
homohabilis 
homoerectus 
homosapiens 


' main ': 

= Homohabilis() 
= Homoerectus () 
= Homosapiens () 


在 这 段 代 码 中 ， 以 Ape X GRI) 作为 基 类 。Homohabilis 类 (HEA) 是 Ape 类 的 子 
类 。Homohabilis 类 原封 不 动 地 直接 继承 于 Ape 类 ， 得 到 了 Ape 类 的 变量 eyes. arms. legs 
和 一 个 成 员 函 数 show © 

Homoerectus 类 (直立 人 ) 是 Homohabilis 类 的 子 类 。 虽 然 Homoerectus 类 是 Ape 类 的 “ 孙 
HE” , fH Homoerectus 是 跟 Ape 毫 无 关系 的 。Homoerectus 只 跟 它 的 父 类 Homohabilis AX, 
至 于 Homohabilis 的 变量 、 函 数 是 从 继承 得 来 的 还 是 自身 定义 的 都 跟 Homoerectus 无 关 。 

最 后 的 Homosapiens 类 是 Homoerectus 类 的 子 类 。 因 为 Homoerectus 修改 了 arms 和 legs 的 
值 ， 所 以 Homosapiens 也 直接 继承 了 这 个 修改 后 的 值 。 无 须 考虑 “祖先 类 ”是 怎么 设置 的 。 


执行 


命令: 


python3 inheritClass.py 


执行 结果 如 图 3-7 所 示 。 
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8 kingGdebian8: ~/code/crawler - n me 


kingédebian8:-/code/crawler$ python3 inheritClass.py ^ 


is over Hit 





I ha 
#44804 The show is over HH 


I am a Homoerectus 
I have 2 eyes 
I have 2 arms 
I have 2 legs 
#4480" The show is over PAHI 


I am a Homosapiens 
I have 2 eyes 
I ha rns 





I ha egs 
mld The show is over ANNE { 


图 3-7 Class 继承 


这 种 继承 的 方式 在 小 程序 中 可 能 还 显示 不 出 优势 ， 但 在 大 项 目 中 优势 就 非常 明显 了 。 把 
所 有 具有 共性 的 物品 都 归纳 成 一 个 基 类 。 继 承 基 类 后 ， 然 后 根据 不 同 的 特性 ， 稍 做 修改 就 得 
到 了 合适 的 、 有 特性 的 新 类 ， 减 少 了 工作 量 ， 在 修改 共性 时 也 只 需要 修改 基 类 就 能 影响 所 有 
下 游 的 子 类 ， 非 常 方便 。 











3.5.8 Project 2 分 析 


再 来 看 一 个 常用 的 实例 。 在 做 Python 息 虫 时 ， 最 常用 的 操作 就 是 向 网 站 服务 器 提出 请 
求 ， 然 后 等 待 服务 器 返回 数据 ， 最 后 才 是 过 滤 有 效 数据 、 清 洗 数 据 、 保 存 数据 。 在 向 服务 器 
提出 请 求 这 一 过 程 中 ，Python 需要 向 服务 器 发 送 http header。http header 中 最 重要 的 就 是 
User-Agent 和 cookies 了 (也 有 不 需要 提供 User-Agent 的 网 站 ， 但 网 络 爬 虫 日 益 横行 ， 连 最 
基本 的 反扑 虫 手段 都 不 用 的 网 站 已 经 很 少 了 〉。 待 服务 器 返回 数据 后 ， 再 将 数据 处 理 后 交 给 
Dot, To" 模块 过 滤 所 需 的 信息 。 

这 时 麻烦 出 现 了 。 服 务 器 返回 的 字符 编码 并 不 是 统一 的 。 疏 虫 在 朴 中 文 网 站 时 ， 最 麻烦 
的 就 是 字符 编码 问题 了 。 中 文字 符 编 码 最 常见 的 要 数 utf-8 和 gbk 了 。 至 于 这 两 种 字符 编码 的 
由 来 和 历史 这 里 就 不 做 普及 了 。 一 般 来 说 ， 国 内 建站 比较 早 的 网 站 有 部 分 还 在 使 用 gbk 的 编 
码 (虽然 目前 utf-8 的 编码 更 加 普及 ， 也 许 是 老 网 站 为 了 传统 问题 都 没有 转换 过 来 ) ， 而 新 建 
站 点 差不多 都 是 utf-8 的 编码 了 ， 也 有 港 台 特 有 编码 bigs 的 。 

这 么 常用 的 处 理 ， 按 照 惯 例 当然 是 要 做 成 函数 或 者 类 ， 便 于 多 次 调用 ， 但 在 执行 这 一 过 
程 中 ， 既 有 相同 的 共性 〈 主 要 过 程 相同 ， 都 是 请 求 url， 返 回 html 代码 ， 然 后 处 理 ) ， 也 有 
各 自 的 特性 (不 同 的 User-Agent. cookies 和 字符 编码 处 理 ) 。 写 成 函数 ， 不 是 不 可 以 ， 但 这 
个 函数 就 需要 带 上 多 个 参数 ， 而 用 类 可 能 会 更 方便 一 些 。 

常见 的 方法 是 先 编写 一 个 基 类 ， 将 基本 步骤 都 包含 进去 〈 基 类 将 共性 和 某 一 特性 就 包含 
HEAT) 。 如 果 在 使 用 时 ， 有 不 同 的 特性 (比如 需要 带 指定 的 User-Agent， 或 特定 的 字符 编 
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码 ) 。 那 就 重新 设计 一 个 新 类 ， 继 承 于 基 类 。 然 后 根据 自己 所 需 的 特性 ， 将 基 类 的 某 些 函数 
或 变量 重 载 。 这 样 使 用 类 ， 既 减少 了 工作 量 ， 又 能 灵活 运用 于 不 同 的 场景 。 


3.5.4 Project 2 实施 


为 什么 一 定 要 设置 User-Agent WE? 

据说 目前 访问 网 站 的 网 络 流量 中 有 60%~70% 都 是 网 络 爬 虫 提供 的 。 网 站 当然 更 欢迎 真实 
人 类 的 访问 流量 。 因 此 采取 种 种 方法 来 拒绝 网 络 爬 虫 的 访问 ， 这 也 就 是 所 谓 的 反 叭 虫 了 。 而 
最 简单 的 反 疏 虫 莫 过 于 检查 发 送 请 求 方 http header 中 的 User-Agent 了 。 如 果 Python 没有 设置 
User-Agent， 默 认 情 况 下 http header 的 User-Agent 就 是 Python。 显 然 这 样 是 无 法 通过 网 站 检 
查 的 ， 布 置 了 反 疏 虫 的 服务 器 也 不 会 为 这 种 网 络 请 求 提供 服务 。 因 此 必须 为 Python 提供 虚假 
的 User-Agent 以 欺骗 服务 器 ， 让 服务 器 误 认 为 请 求 来 源 是 浏览 器 。 

不 同 的 浏览 器 提供 的 User-Agent 是 不 同 的 。 如 果 要 一 一 列 数 篇 幅 会 非常 大 ， 这 里 就 列 出 
最 典型 的 几 种 。 因 为 User-Agent 是 可 以 被 很 多 程序 反复 利用 的 ， 将 User-Agent 放 入 主 程序 似 
乎 也 不 太 合适 ， 所 以 将 User-Agent 放 入 一 个 新 的 Python 文件 ， 以 备 其 他 Python 程序 调用 。 

【示例 3-6】 编 写 resource.py。 将 常用 的 资源 放 入 该 文件 中 ， 便 于 其 他 的 Python 程序 调 
用 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi resource.py 


resource.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 4-*— coding: uEf£-8 =*= 


3 author = 'hstking hst_king@hotmail.com' 

4 

5 

6 userAgentList = [ 

7 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/39.0.2171.71 Safari/537.36', #Chrome 

8 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like 
Gecko) Chrome/23.0.1271.64 Safari/537.11', #Chrome 

9 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 
(KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16', #Chrome 

10 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60', #Opera 

11 'Opera/8.0 (Windows NT 5.1; U; en)',#Opera 

12 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 
Firefox/2.0.0 Opera 9.50',40pera 

13 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 
9.50',fOpera 

14 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100102 
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Firefox/34.0',#Firefox for Windows 

15 'Mozilla/5.0 (X11; U; Linux x86 64; zh-CN; rv:1.9.2.10) 
Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',#Firefox for Linux 

16 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, 
like Gecko) Version/5.1.7 Safari/534.57.2 ',#Safari 

17 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/30.0.1599.101 Safari/537.36', #360 

18 "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like 
Gecko'#360 

19 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, 
like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11',#Taobao 

20 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like 
Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER', #73030 38 

21 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; 
Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; 
Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER) ', #4453) Was 


22 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
732; .NET4.0C; .NET4.0E; LBBROWSER) ',# 猎 鹏 浏览 器 
23 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; 


Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; 
Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',#QQ 


24 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
732; .NET4.0C; .NET4.0E)', #QQ 

25 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) 
Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',#Sogou 

26 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; 
SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) ',#Sogou 

27 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36', #Maxthon 

28 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'#UC 

2o] 

30 

31 mobileUserAgentList = [ 

32 'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4 3 3 like Mac OS X; en-us) 


AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5', #Iphone 

33 'Mozilla/5.0 (iPod; U; CPU iPhone OS 4 3 3 like Mac OS X; en-us) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5',#Ipod 

34 'Mozilla/5.0 (iPad; U; CPU OS 4 2 1 like Mac OS X; zh-cn) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 
Safari/6533.18.5',#Ipad 
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35 'Mozilla/5.0 (iPad; U; CPU OS 4 3 3 like Mac OS X; en-us) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5',#Ipad 

36 "Mozilla/5.0 (Linux; U; Android 2.2.1; zh-cn; HTC Wildfire A3333 
Build/FRG83D) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile 
Safari/533.1', #Android 

37 'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) 
AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile 
Safari/533.1"', #Android 

38 "MOQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 
Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 
Mobile Safari/533.1',#QQ for Android 


39 'Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; 
en-GB) Presto/2.8.149 Version/11.10',#Opera for android 
40 "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) 


AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13',#Android Pad 
Moto Xoom 

41 'Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) 
AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile 
Safari/534.1+', BlackBerry 


42 'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; 
Trident/5.0; IEMobile/9.0; HTC; Titan)'4Windows Phone Mango 
43 ] 








Es 这 里 不 仅 提供 了 常用 PC 端 浏览 器 的 User-Agent， 也 提供 了 移动 端 浏览 器 的 User-Agent. 
这 是 因为 使 用 PC 端 访问 网 站 和 使 用 移动 端 访问 网 站 可 能 得 到 的 结果 会 不 同 。 或 者 直接 
点 说 ， 有 些 网 站 会 为 移动 端 和 PC 端 提供 不 同 的 服务 。PC 端的 反 企 虫 会 做 得 更 用 心 一 
些 ， 而 移动 端 提 供 的 服务 则 很 少 做 反扑 虫 处 理 。 








一 般 来 说 ， 调 用 同一 目录 下 的 Python 程序 是 无 须 任何 处 理 就 可 以 直接 调用 的 ， 比 如 调用 
resource.py 中 的 userAgentList。 如 果 调 用 的 Python 文件 与 resource 处 在 同一 目录 下 ， 直 接 在 
文件 头 添 加 一 行 from resource import userAgentList 就 可 以 了 。 但 有 些 IDE 要 求 比 较 严 格 ， 必 
须 在 该 目录 下 添加 一 个 名 字 为 _init_.py 的 空 文件 (这 个 文件 里 什么 都 没有 ) ， 意 思 是 将 该 
目录 初始 化 为 Python 的 包 。 以 后 就 可 以 根据 包 名 (也 就 是 目录 名 ) 来 调用 包 (目录 〉 内 文件 
的 函数 、 类 、 变 量 了 。 没 有 这 个 _init_.py 文件 也 许 没有 什么 影响 ， 但 有 一 个 显然 更 加 安 
全 。 所 以 使 用 Putty 连接 到 Linux 后 ， 执 行 命令 : 

cd code/crawler 
touch init .py 
varer Apit py, 
cat _ init E Dy, 
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执行 结果 如 图 3-8 所 示 。 


这 king@debian8: ~/code/crawler 一 口 x 


Iking@debian8:~$|cd code/crawler 
|king@debian’ /code/crawler$ [touch init -py 
cing&debian8:-/code/crawler$S |ls -1 init .py 
|-rw-r--r-- l king king 0 108 11 23:09 init .py 
kingG6debian8:-/code/crawler$ cat _ init .py 
king@debian8:~/code/crawler$ 












































图 3-8 创建 _init .py 文件 








现在 Python 可 以 认为 crawler 目录 是 一 个 Python package 了 。 如 果 再 把 crawler 目录 路 径 
加 入 到 PYTHONPATH， 那 么 Python 就 可 以 在 任何 位 置 通过 import crawler.resource 语句 
| 来 调用 resource.py 内 的 资源 了 。 











【示例 3-7】 所 有 的 准备 工作 已 经 完毕 。 下 面 创建 connWeb.py， 先 创建 一 个 基 类 用 于 访问 
一 般 的 utf-8 编码 的 网 站 ， 然 后 定义 一 个 新 类 ， 继 承重 载 基 类 ， 用 于 连接 特定 字符 编码 。 打 开 
Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi connWeb.py 


connWeb.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding:utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


from resource import userAgentList 
import random 

import urllib.request 

import codecs 


(0 OI ADH QN EH 


m 
o 


class ConnBase (object): 
'''! 这 是 一 个 用 于 返回 htm 源 代码 的 类 ' 
12 accept = 


m 
a 


"text/html, application/xhtml+xml, application/xml;q=0.9,image/webp, image/apng, * 
/*;q-0.8' 
13 accept language = 'en-US,en;q-0.8,zh-CN;q-0.6,zh;q-0.4,zh-TW;q-0.2" 
14 user agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 
Safari/537.36', #Chrome 
15 charset = 'utf-8' # 一 般 来 说 网 页 使 用 的 都 是 utf-8 码 
16 headers = { 
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"T "Accept': accept, 


18 'Accept-Language': accept language, 

T9 'User-Agent': user agent 

20 } 

21 timeout - 10 

22 

23 def _init_ (self, url): 

24 self.url = url 

25 self.result = self.getResponse () 

26 self.save2file() 

27 

28 def getResponse(self, proxy={}): 

29 proxy handler = urllib.request.ProxyHandler (proxy) 

30 opener - urllib.request.build opener(proxy handler) 

31 

32 opener.headers - self.headers 

33) urllib.request.install_opener (opener) 

34 Erys 

35) req = urllib.request.Request (self.url) 

36 response = urllib.request.urlopen(req, timeout=self.timeout) 

37 result = response.read() .decode(self.charset, 'ignore') 

38 except Exception as e: 

39 print (e) 

40 return None 

41 else: 

42 return result 

43 

44 def save2file(self): 

45 with codecs.open(self.charset + '.txt', 'w', 'utf-8') as fp: 

46 fp.write(self.result) 

47 

48 

49 class GetHtmlCode (ConnBase) : 

50 ''" 继承 于 ConnBase $X, MRS charset 变量 ， 用 于 连接 字符 集 为 gbk 的 网 站 。''' 

51 def _ init (self, url): 

52 self.url = url 

53 self.user_agent = random.choice(userAgentList) # 这 里 将 从 userAgent 
列表 中 随机 挑选 User-Agent， 避 免 反 息 虫 干扰 

54 self.charset = 'gbk' # 对 应 某 些 中 文 网 站 的 字符 编码 ， 如 果 是 繁体 中 文 ， 一 般 是 
Gig5 

55 

56 self.result = self.getResponse() 

57 self.save2file() 
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58 


59 

60 if name == main _": 

61 resl = ConnBase('http://www.linuxdiyf.com') 

62 res2 = GetHtmlCode('http://www.linuxdiyf.com') 


暂时 不 执行 程序 ， 先 分 析 一 下 本 程序 。 

首先 是 程序 第 5 行 的 from resource import userAgentList. 。 因 为 本 程序 需要 用 到 
resource.py 中 的 userAgentList 变量 ， 而 resource.py 与 本 程序 是 处 于 同一 目录 下 的 ， 所 以 可 以 
直接 用 from resource import userAgentList 将 userAgentList 变量 导入 本 程序 中 来 。 

再 看 程序 第 49 行 的 GetHtmlCode 类 。 在 这 个 类 中 并 没有 定义 任何 的 类 函数 ， 但 因为 
GetHtmlCode 类 是 继承 于 ConnBase 类 的 ， 所 以 ConnBase 有 的 函数 GetHtmlCode 也 有 【除了 
init 函数 以 外 ) , ConnBase 有 的 类 变量 ，GetHtmlCode 同样 也 有 ， 这 也 是 继承 的 意义 。 
而 在 程序 第 33、54 行 ，GetHtmlCode 重 载 了 ConnBase 的 两 个 类 变量 ， 这 个 有 点 类 似 于 C 语 
言 的 全 局 变量 和 局 部 变量 ， 也 就 是 变量 同名 时 ， 局 部 变量 覆盖 了 全 局 变量 。 在 程序 的 53. 54 
行 也 是 如 此 。GetHtmlCode 中 有 与 ConnBase 同名 的 变量 ， 因 此 GetHtmlCode 内 定义 的 变量 
将 覆盖 父 类 的 变量 ， 这 也 就 是 所 谓 的 重 载 。 在 类 中 不 但 可 以 重 载 变量 ， 还 可 以 重 载 函数 。 

在 运行 程序 前 先 看 一 下 测试 网 站 的 字符 编码 ， 在 浏览 器 中 打开 测试 用 网 站 
http://www.linuxdiyf.com。 查 看 字符 编码 ， 如 图 3-9 所 示 。 


EBkUnux JA - 专注 Lin x y 国 viewsourcewwwlinu: x 


Q | © view-sourcewww.linuxdiyf.com * 


<html xnlns-"http: //www. w3. org/ 1999/xhtal^» 

















3| <head> 
4 «neta http-equiv-"Content-Type" content-"text/htnl;| charset=gb2312"| /> 
5 KritieflÉLimxi]P - 专注 Limux 系 统 教 程 的 网 站 ，Limm 系 缀 之 家 Ititle> 
6 name=” keywords” content=" linux, linux. [ir 教程, linux: , limux 学 习 , Limux 命 令 大 
t» 
7 <meta nane=“description”cortent=* 红 联 Linux 系 统 门户 ， 专 注 Linux 系 统 教程 的 网 站 ， 提 供 Linue 安 装 
教程 ， LEA CARENT 帮助 用 户 更 好 的 学 习 Linux。 红 联 ， 做 中 国人 Linux 网 上 家 园 。”/> 
8| <link href=” ‘ww. 1: templets/def ault/styl 
rel= t stylesheet medise"screen type="text/css" /> 
9| <script language=" javascript” type="text/ javascript” 
src- “http://www. 1inuxdiyt. con/1inux/images/ js/1. is" ></script> 
10| <script language="javascript” type="text/ javascript” 
src=” http://www, Linuxdi yf. com/linux/templets/default/is/pic scroll. is”></script> 
11| <script type="text/ javascript" src-"http: //cb js. baidu. com/is/m is”></script> 
12| </head> 
13| <body class=" index” > 
14| <div class="header_top”> 
15| <div class="w960 center"? <span id-"time" class-"time'»SÉLinux - Ei! </span> 
16 <div class-"toplinks' ><a href="http://wew. linuxdiyf.com/" target="_blank” >41 RLinuwi 1A - 


图 3-9 测试 用 网 站 源码 
从 中 可 以 看 出 测试 用 网 站 使 用 的 字符 编码 是 gb2312， 这 也 是 为 什么 在 程序 中 要 将 
GetHtmlCode 类 中 的 self.charset 重 载 为 gbk 的 缘故 (gb2312 字符 集 是 gbk 字符 集 的 子 集 ) 。 
下 面 开 始 执行 程序 ， 执 行 命令 : 


python connWeb.py 
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dy Sal ARE 
grep ‘<title>’ Ext 


执行 结果 如 图 3-10 所 示 。 





上 king@debian8: ~/code/crawler 一 口 x 
king@debian8:~/code/crawler$ python3 connWeb.py ^ 
kingédebian8:-/code/crawlerS ls -1 *.txt 

-rw-r--r-- 1 king king 37573 1H 19 15:22 gbk.txt 

-rw-r--r-- 1 king king 31241 1 月 19 15:22 utf-8.txt 


king@debian8:~/code/crawler$ grep '«title»' *.t 
gbk.txt:<title> 红 联 Linux 门 户 Enos OC MH MBE </titie> 
lutf-8.txt:«title»Linuxá vaLinuxeTuc/title» 
king@debian8:~/code/crawler$ fj 





图 3-10 保存 结果 到 文件 


图 3-10 中 utf-8.txt 是 基 类 ConnBase 类 生成 的 ，gtk.txt 是 由 子 类 GetHtmlCode 生成 的 。 
使 用 grep 命令 比较 一 下 文件 内 容 〈 这 里 不 需要 比较 全 文 ， 只 需要 比较 一 下 title 就 足够 说 明 问 
WY) . gtkixt 因为 使 用 的 是 与 网 站 字符 相同 的 编码 ， 所 以 得 到 了 正常 可 见 的 中 文字 符 。 而 
utf-8.txt 使 用 的 是 默认 的 utf-8 编码 ， 与 网 站 默认 的 字符 编码 不 符 ， 所 以 得 到 的 是 乱码 。 





多 线程 


不 管 哪 种 编程 语言 ， 多 线程 都 是 必 不 可 少 的 。 这 种 提高 工作 效率 的 神器 ， 怎 么 重视 都 不 
过 分 。 多 线程 ， 就 是 将 多 个 线性 顺序 执行 的 过 程 变 成 并 行 运行 。 并 行 的 数量 越 多 ， 效 率 就 越 
高 。 如 果 需 要 放空 一 个 水 池 的 水 ， 打 开 多 个 放水 孔 的 效率 显然 要 比 打开 一 个 放水 孔 的 效率 
高 。 这 种 做 法 是 典型 的 以 资源 换 时间 。 


3.6.1 Project 1 分 析 
首先 设计 一 个 简单 的 程序 threadingOrderRun.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi threadingOrderRun.py 


threadingOrderRun.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding:utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


1 
2 
3 
4 
5 import time 
6 
7 def showName (name) : 
8 


nowTime = time.strftime('$H:$M:$S', time.localtime (time.time())) 
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9 print('My name is function-$s, now time: $s ' $(name, nowTime)) 


10 time.sleep(1) 

nn 

12 

13 if name —— '_main_': 

14 for i in range(20): # 没 有 开 多 线程 的 情况 下 ， 执 行 20 次 操作 
15 showName (i) 


这 个 函数 的 功能 很 简单 ， 就 是 从 列表 中 提取 名 字 作 为 showName 的 参数 ， 然 后 显示 名 字 
和 当前 时 间 。 最 后 的 time.sleep(1) 是 因为 这 个 过 程 太 快 了 ， 所 以 休眠 1 秒 以 便于 观察 。 这 是 一 
种 理所当然 的 顺序 操作 方法 ， 但 理所当然 的 操作 并 不 是 最 有 效率 的 操作 。 这 种 方法 完全 就 是 
线性 操作 ， 从 列表 中 取出 一 个 元 素 ， 就 用 函数 处 理 一 个 元 素 。 现 在 运行 程序 试 试 ， 执 行 命 
4: 

time python threadingOrderRun.py 

执行 结果 如 图 3-11 所 示 。 


ing@debian8: ~/code/crawler - 
king@debi ode/crawl 日 ”六 


king@debian8:~/code/crawler$ time python3 threadingOrderRun.py ^ 
My name is function-0, now time: 
My name is function-1, now time: 
My name is function-2, now time: 
IMy name is function-3, now time: 
|My name is function-4, now time: 
IMy name is function-5, now time: 
IMy name is function-6, now time: 
My name is function-7, now time: 
IMy name is function-8, now time: 
My name is function-9, now time: 
My name is function-10, now time: 
My name is function-11, now time: 
IMy name is function-12, now time: 
My name is function-13, now time: 
My name is function-14, now time: 
My name is function-15, now time: 
IMy name is function-16, now time: 
My name is function-17, now time: 
|My name is function-18, now time: 
IMy name is function-19, now time: 








5:27:40 


real 0m20.070s 
user 0m0. 032s v 


图 3-11 线性 顺序 执行 

















| time 命令 是 Linux 特有 的 命令 ， 只 能 在 Linux 下 执行 。Windows 下 执行 时 可 以 查看 打印 | 
| 出 的 时 间 。 








从 图 3-11 中 可 以 看 出 ， 该 程序 执行 时 间 为 20.070 秒 。 如 果 列 表 比 较 小 ， 那 还 可 以 忍 
受 。 如 果 这 个 列表 比较 大 呢 ? 1000 个 元 素 至 少 得 1000 秒 ， 那 就 完全 无 法 接受 了 。 明 明 计 算 
机 有 多 余 的 资源 ， 却 花费 了 这 人 么 多 的 时 间 。 完 全 可 以 利用 资源 来 换取 时 间 ， 用 多 线程 操作 。 
在 同一 时 间 内 运行 多 个 线程 (事实 上 线程 并 不 是 同时 运行 的 ， 是 基于 时 间 片 轮转 的 方式 执 
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行 。 但 对 于 操作 者 来 说 ， 跟 同时 运行 并 没有 什么 区 别 ) 。 这 样 虽 然 占用 了 一 定 的 资源 ， 但 大 
大 地 节省 了 时 间 。 毕 竟 绝 大 多 数 的 情况 下 都 是 希望 时 间 优 先 的 。 


3.6.2 Project 1 实施 

在 Python 中 ， 多 线程 的 模块 是 threading 模块 。 如 果 要 完全 深入 了 解 threading Hik, 
怕 得 好 好 地 读 一 下 Python 的 说 明文 档 。 如 果 只 是 要 使 用 ， 那 就 很 简单 了 。 这 里 需要 注意 的 
是 ， 使 用 threading 模块 进行 多 线程 操作 有 两 种 方法 。 一 种 是 以 函数 的 形式 调用 ， 一 种 是 以 类 


的 方式 调用 。 


先 以 函数 的 形式 使 用 多 线程 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi threadingOfFunction.py 


threadingOfFunction.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 #=*= coding:utf=8 =*= 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 import time 

6 import threading 

7 

8 def showName (threadNum ,name) : 

9 nowTime = time.strftime('$H:$M:$S', time.localtime(time.time()) 

10 print('I am thread-%d ,My name is function-%s, now time: %s ' 
%(threadNum, name, nowTime) ) 

m time.sleep(1) 

12 

13 if name  -- ' main ': 

14 print('I am main ...') 

15 names = range (20) 

16 threadNum = 1 #threadNum 指 的 是 线程 执行 的 批 次 。 

17 threadPool = [] # 线 程 池 

18 while names: 

19 for i in range(6): 

20 try: # 这 里 需要 考虑 列表 已 经 读 取 完 毕 的 情况 

21 name = names.pop() 

Be except IndexError as e: 

23 print('The list is empty') 

24 break 

25 else: 

26 t = threading.Thread(target=showName, args=(i, name, )) 

27 threadPool.append(t) 
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28 t.start() 


29 while threadPool: # 也 可 以 用 for 循环 ， 然 后 清空 threadPool 线程 池 

30 t = threadPool.pop() 

31 t.join() # 使 用 join 是 为 了 阻塞 主 函 数 ， 意 思 是 必须 将 t 这 个 函数 执行 完毕 后 
才能 继续 执行 主 函数 

32 threadNum += 1 

33 pints ep Eneee ER \r\n') 

34 print ('main is over ..."') 


以 函数 的 形式 使 用 多 线程 ， 就 是 用 threading. Thread(target=functionName, args=(arguments,)) 的 
方法 代入 需要 进行 多 线程 操作 的 函数 和 函数 所 需 的 参数 (如 果 没 有 参数 更 好 ) 。 








EE 如 果 代入 的 函数 有 一 个 参数 ， 那 么 args 要 写成 args=(argl, )。 如 果 有 两 个 参数 ， 那 么 args 
就 要 写成 args-(argl, arg2, )。 总 之 在 参数 元 组 的 最 后 要 留 出 一 个 空位 。 
在 程序 的 第 29-31 行 ， 使 用 了 join 函数 是 为 了 阻塞 主 函数 ， 意 思 是 主线 程 必须 等 待 多 线 
程 执 行 完 毕 后 才能 正常 结束 。 其 实 这 里 也 可 以 不 用 join 函数 ， 多 线程 的 daemon 属性 默 
认 是 false。 这 种 情况 下 主线 程 本 来 就 是 要 等 待 多 线程 执行 完毕 才 会 结束 的 。Join 函数 更 
多 的 是 用 在 多 进程 。 








执行 程序 ， 运 行 命令 : 
time python3 threadingOfFunction.py 


执行 结果 如 图 3-12 所 示 。 

















@® king@debian8: ~/code/crawler = Dn x 
I am thread-3 ,My name is function-16, now time: 12:09:31 ^ 
I am thread-4 ,My name is function-15, now time: 12:09: 

I am thread-5 ,My name is function-14, now time: 

I am thread-O ,My name is function-13, now time 

I am thread-1 ,My name is function-12, now time 

I am thread-2 ,My name is function-ll, now time 

I am thread-3 ,My name is function-10, now time 

I am thread-4 ,My name is function-9, now time 

I am thread-5 ,My name is function-8, now time: 

I am thread-0 ,My name is function-7, now time: 

I am thread-l ,My name is function-6, now time: 

I am thread-2 ,My name is function-5, now time: 

I am thread-3 ,My name is function-4, now time: 

I am thread-4 ,My name is function-3, now time: 

I am thread-5 ,My name is function-2, now time: 12 

I am thread-0 ,My name is function-l, now time: 

The list is empty 

I am thread-l ,My name is function-0, now time: 12:09:34 

jmain is over ... 

eal 0m4.022s 

user 0m0. 008s 

sys om0.004s 

king@debian8:~/code/crawlers fj v 








3-12 ”函数 式 多 线程 


从 图 3-12 可 以 看 出 ， 这 次 操作 只 花费 了 4.002 秒 。 与 顺序 操作 的 20.045 秒 相 比 节约 了 一 大 
半 的 时 间 。 在 计算 机 可 以 承受 的 范围 内 ， 调 大 线程 的 数量 ， 还 可 以 将 运行 时 间 进 一 步 缩短 。 
以 类 的 方式 使 用 多 线程 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 
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cd code/crawler 


vi threadingOfClass.py 


threadingOfClass.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #-*- coding:ut£-8 -*= 


3 author = 'hstking hst_king@hotmail.com' 


4 


5 import time 


6 import threading 


T 
8 class ShowName(threading.Thread): # 这 里 的 类 名 要 大 写 ， 该 类 继承 于 
threading.Thread 类 
9 def init (self, threadNum ,name): 
10 threading.Thread. init (self) # 这 一 步 是 必 不 可 少 的 
ui self.name = name 
12 self.threadNum = threadNum 
13 
14 def run (self): 
15 nowTime = time.strftime('$H:$M:$S', time.localtime(time.time())) 
16 print ('I am thread-$d ,My name is function-%s, now time: $s ' 
%(self.threadNum, self.name, nowTime) ) 
17 time.sleep (1) 
18 
19 if name == ' main ': 
20 print('I am main ...') 
21 names = [x for x in range(20)] 
22 threadNum - 1 
23 threadPool - [] 
24 while names: 
25 for i in range(6): 
26 try: # 考 虑 线程 已 经 读 取 完 毕 的 情况 
£e name = names.pop() 
28 except IndexError as e: 
29 print('The List is empty') 
30 break 
31 else: 
32 t = ShowName(i, name) # 这 里 调用 ShowName 几乎 与 直接 调用 
threading.Thread 是 一 样 的 。 
33 threadPool.append(t) 
34 t.start() 
35 while threadPool: 
36 t = threadPool.pop() 
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37 t.join() 


38 threadNum += 1 
39 print ('========= 
40 print('main is over ... 





执行 程序 ， 运 行 命令 : 
time python3 threadingOfClass.py 


执行 结果 如 图 3-13 所 示 。 


EP king@debian8: ~/code/crawler 一 口 X 


I am zhread-1 ,MY name is function-15, 
I am thread-1 ,My name is function-14, 
I am thread-1 ,My name is function-14, 
I am thread-2 ,My name is function-12, 
I am thread-2 ,My name is function-11, 
I am thread-2 ,My name is function-10, 





I am thread-2 ,My name is function-$, 
I am thread-2 ,My name is function-8, 
I am thread-2 ,My name is function-s, 
I am thread-3 ,My name is function-6, 
I am thread-3 ,My name is function-5, 
I am thread-3 ,My name is function-4, 
I am thread-3 ,My name is function-3, 
I am thread-3 ,My name is function 
I am thread-3 ,My name is function-2, 
I am thread-4 ,My name is function-0, 
[The List is empty 

I am thread-4 ,My name is function-0, now time: 12:25:42 
main is over ... 











keal Om4.019s 
user 0m0. 008s 














sys 0m0. 000s 
king@debian8:~/code/crawlers fj v 


3-13 ”类 式 多 线程 


从 图 3-13 中 可 以 看 到 ，threadingOfClass.py 的 运行 时 间 是 4.019 秒 ， 跟 threadingOfFunction.py 
的 4.002 相当 接近 ， 说 明 这 两 种 方法 从 效率 上 来 说 没有 什么 区 别 ， 任 选 一 种 使 用 都 可 以 。 








这 两 种 方法 都 是 对 类 的 调用 。 所 谓 函 数 式 的 调用 是 对 threading.Thread 类 的 直接 调用 ， 而 
| 类 式 的 调用 则 是 先 继承 threading.Thread 类 ， 重 载 子 类 的 函数 后 再 调用 子 类 的 方式 调用 ， 
只 是 前 者 看 起 来 更 像 函 数 调用 而 已 。 








3.6.3 Project 2 分 析 

多 线程 的 好 处 在 于 可 以 并 行 运行 重复 性 的 工作 ， 大 大 地 减少 了 运行 时 间 ， 但 使 用 多 线程 
也 难免 会 忙中 出 错 。 例 如， 重复 地 往 一 个 文件 内 写 入 单行 内 容 。 如 果 单 线程 的 线性 执行 ， 很 
难 出 错 。 如 果 多 线程 执行 时 那 就 不 一 定 了 。 当 多 个 线程 同时 向 文件 内 写 入 内 容 时 ， 会 不 会 造 
成 一 个 线程 写 入 成 功 、 其 他 的 线程 都 做 了 无 用 功 呢 ? 不 妨 测 试 一 下 。 

打开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
Vi threadingWithoutLock.py 
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threadingWithoutLock.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding:utf-8 -*- 


import time 
import threading 
import codecs 


Q0 0 0&U0N HP 


def showName(threadNum ,name): 


10 with codecs.open('test.txt', 'a', 'utf-8') as fp: 


. author = 'hstking hst_king@hotmail.com' 


alii nowTime = time.strftime('%H:%M:%S', time.localtime(time.time())) 


12 fp.write('I am thread-$d ,My name is function-$s, now time: 


%s\r\n ' $(threadNum, name, nowTime)) 


als} print('I am thread-%d ,My name is function-%s, now time: %s ' 


%(threadNum, name, nowTime) ) 
14 time.sleep (1) 


15 

16 

17 if name == ' main "': 

18 with codecs.open('test.txt', 'w', 'utf-8') as fp: 
19 fp.write('') 

20 print('I am main ...') 

2 names - [x for x in range(100)] 


22 threadNum = 1 
23 threadPool = [] 


24 while names: 

25 for i in range(13): 

26 try; 

27 name = names.pop() 

28 except IndexError as e: 

29 print('The list is empty') 
30 break 

En else: 

322 t = threading.Thread(target-showName, args=(i, 
33 threadPool.append (t) 

34 t.start() 

35 while threadPool: 

36 t = threadPool.pop() 

S t.join() 

38 threadNum 4- 1 

39 print('main is over ...') 


这 个 程序 与 之 前 的 多 线程 程序 基本 上 没什么 区 别 ， 只 是 增加 了 总 共 线程 的 数量 C100 
个 ) ， 并 将 输出 写 入 了 一 个 文件 中 。 当 执行 的 总 线程 比较 少 ， 同 时 执行 的 线程 也 不 多 的 情况 
下 也 许 不 会 出 现 问题 。 一 旦 数量 上 去 了 ， 问 题 就 比较 突出 了 。 理 论 上 names 列表 有 100 个 元 


素 ， 那 么 就 应 该 有 100 行 字符 串 写 入 到 了 test.txt 文本 中 。 
执行 程序 测试 一 下 。 运 行 命令 : 
python3 threadingWithoutLock.py 


ls -1 test.txt 
wc -1 test.txt 
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执行 结果 如 图 3-14 所 示 。 








& 
E 
à 

e 
L3 


n8: ~/code/crawler - n x 


thread-5 ,My name is function-16, now time: 00:14:12 ^ 
thread-6 ,My name is function-15, now time: 00:14:12 

thread-7 ,My name is function-14, now time: 00:14:12 

thread-8 ,My name is function-13, now time: 00:14:12 

thread-9 ,My name is function-12, now time: 00:14:12 

thread-10 ,My name is function-1l, now time: 00:14:12 

thread-ll ,My name is function-10, now time: 00:14:12 
thread-12 ,My name is function-9, now time: 00:14:12 
thread-0 ,My name is function-8, now time: 213 
thread-l ,My name is function-7, now time: :13 
thread-2 ,My name is function-6, now time: 
thread-3 ,My name is function-5, now time: 
thread-4 ,My name is function-4, now time: 









thread-5 ,My name is function-3, now time 
thread-6 ,My name is function-2, now time 
thread-7 ,My name is function-1, now time 
[Ihe list is empty 

[I am thread-8 ,My name is function-0, now time: 00:14:13 
main is over ... 
king@debian$:~/code/crawler$ 1s -1 test.txt 
-rw-r--r-- l king king 6011 108 19 00:14 test.txt 
es we -l test.txt 

00 test.txt 

kingédebians:-/code/crawlers Mj v 


图 3-14 Linux 下 未 使 用 线程 锁 的 多 线程 


可 以 看 出 在 Linux 下 还 是 正常 的 结果 。 现 在 将 这 个 程序 复制 到 Windows 下 执行 ， 执 行 结 
3-15 所 示 。 


FRRRRRRRRRRRRRRR 
BBBRBRBREBRRSBRSR 


00:14:13 


















































Bena EDU 
S4 I am thread-4 ,My name is function-30, now time: 00:08:51 
E <1> cmd 65 I am thread-9 ,My name is function-25, now time: 00:08:51 
am thread-i8 ,Hy 5 I am thread-8 ,My name is function-26, now time: 00:08:51 
peter e £7 I am chread-11 ,My name is function-23, now time: 0 
am thread-8 „My naj| ^^ Iam thread-7 ,My name is function-27, now time: 00:08:51 
am thread-11 „My ni| ^^ I am thread-12 ,My name is function-22, now time: O 
70 I am thread-10 ,My name is function-24, now time: 0 
nctíon-9) ow tiee | >, 1 am thread-1 ,My name is function-20, now time: 00:08:52 
72 I am thread-3 ,My name is function-18, now time: 00:08:52 
73 I am thread-2 ,My name is function-19, now time: 00:08:52 
74 I am thread-4 ,My name is function-17, now time: 00:08:52 
75 I am thread-6 ,My name is function-15, now time: 00:08:52 
76 I am thread-5 ,My name is function-16, now time: 00:08:52 
77 I am thread-10 ,My name is function-ll, now time: 0 
78 I am thread-7 ,My name is function-14, now time: 00:08:52 
79 I am thread-12 ,My name is function-9, now time: 00:08:52 
50 I am thread-9 ,My name is function-12, now time: 00:08:52 
81 I am thread-ll ,My name is function-10, now time: O 
S5 I am thread-8 ,My name is function-13, now time: 00:08:52 
83 I am thread-O ,My name is function-8, now time: 00:08:53 
84 I am thread-4 ,My name is function-4, now time: 00:08:53 
85 I am thread-l ,My name is function-7, now time: 00:08:53 
86 I am thread-3 ,My name is function-5, now time: 00:08:53 
87 I am thread-8 ,My name is function-0, now time: 00:08:53 
The list is empty || ss — i am thread-s ,My name is functicn-3, now time: 00:08:53 
898 I am thread-6 ,My name is function-2, now time: 00:08:53 
in is over ... : 00:08: 
am thread-7 function-l, time: 00:08:53 












length: 5,4Ln:1 Col:1 Sel:0|0 Windows (CR LF) UTF-8 


FA 3-15 Windows 下 未 使 用 线程 锁 的 多 线程 


只 有 91 行 的 数据 写 入 到 了 文件 内 ， 还 有 9 行 数据 丢失 了 。 为 了 避免 类 似 的 情况 ，Python 
采用 了 线程 锁 的 方法 确保 文件 的 安全 。 使 用 线程 锁 锁定 资源 ， 避 免 干扰 。 
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3.6.4 


Project 2 实施 


在 Python 的 多 线程 中 有 两 种 锁 ， 一 种 是 互 斥 锁 ， 另 一 种 是 可 重 入 锁 。 这 两 者 的 区 别 是 互 


斥 锁 只 能 锁定 一 次 ， 解 锁 一 次 ， 而 可 








入 锁 可 以 锁定 多 次 。 一 般 都 是 使 用 的 互 斥 锁 。 至 于 互 


斥 锁 的 效果 如 何 ， 可 以 将 上 个 例子 稍微 修改 一 下 ， 加 上 互 斥 锁 测 试 一 下 即 可 。 
打开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi threadingWithLock.py 


threadingWithLock.py 的 代码 如 下 : 


© OID UH BwWNHR 


È 

a 
RoR 
e o 


12 
us 


#!/usr/bin/env python3 
#-*- coding:utf-8 -*- 
. author  - 'hstking hst_king@hotmail.com' 


import time 
import threading 


import codecs 


def showName (threadNum ,name): 
mutex.acquire() 
with codecs.open('test.txt', 'a', 'utf-8') as fp: # 写 入 到 test.txt 文 


nowTime = time.strftime('%H:%M:%S', time.localtime(time.time())) 
fp.write('I am thread-$d ,My name is function-$s, now time: 


%s\r\n ' $(threadNum, name, nowTime)) 


14 


print('I am thread-$d ,My name is function-$s, now time: $s ' 


$(threadNum, name, nowTime)) 


45 
16 
17 
18 


au ai 


20 
21 
22 
22 
24 
25 
26 
2 
28 
29 


mutex.release () 
time.sleep (1) 
ane name o mAtn r 
with codecs.open('test.txt', 'w', 'utf-8') as fp: 
fp.write('') 
print('I am main ...') 
mutex = threading.Lock() 
names = [x for x in range(100)] 
threadNum = 1 
threadPool = [] 
while names: 
for i in range(13): 
try: 
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30 name = names.pop() 


31 except IndexError as e: 

32 print ('The list is empty') 
33 break 

34 else: 

35 t = threading.Thread(target-showName, args-(i, name, )) 
36 threadPool.append (t) 

37 t.start() 

38 while threadPool: 

39 t = threadPool.pop() 

40 t.join() 

41 threadNum += 1 

42 print('main is over ...") 


对 比 一 下 代码 ， 很 容易 理解 ， 就 是 所 有 线程 在 写 入 文件 前 如 上 一 个 互 斥 锁 ， 锁 定 资源 。 
等 写 入 完毕 后 再 释放 互 斥 锁 。 这 样 就 确保 数据 一 定 可 以 写 入 到 文件 内 了 。 

执行 程序 测试 一 下 。 运 行 命令 : 

python threadingWithLock.py 


ls -1 test.txt 
we -1 test.txt 


执行 结果 如 图 3-16 所 示 。 










































iB king@debian8: ~/code/crawler - a x 
I am thread-5 ,My name is function-16, now time: 08 ^ 
I am thread-6 ,My name is function-15, now time os 

I am thread-7 ,My name is function-14, now time: 08 

I am thread-8 ,My name is function-13, now time: 08 

I am thread-9 ,My name is function-12, now time: 

I am thread-10 ,My name is function-1l, now time 208 

I am thread-1ll ,My name is function-10, now time 8 

I am thread-12 ,My name is function-5, now time 

I am thread-0 ,My name is function-8, now 

I am thread-1l ,My name is function-7, now 

I am thread-2 ,My name is function-6, now 

I am thread-3 ,My name is function-5, now 

I am thread-4 ,My name is function-4, now 

I am thread-5 ,My name is function-3, now 

I am thread-6 ,My name is function-2, now 

I am thread-7 ,My name is function-l, now 

The list is empty 

I am thread-8 ,My name is function-0, now 

main is over 

king@debian8:~/code/crawler$ 1s -1 t xt 

-rw-r--r-- l king king 6011 108) 18 test.txt 

ing@debian8:~/code/crawler$ wc -l test.txt| 

00 test.txt 

king@debian8:~/code/crawlers fj v 





3-16 Linux 下 使 用 线程 锁 的 多 线程 


检查 一 下 test.txt 文件 ， 正 好 100 行 ， 符 合 设计 的 结果 。 再 将 threadingWithLock.py 程序 
复制 到 Windows 下 运行 一 下 。 执 行 结果 如 图 3-17 所 示 。 
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<1> cmd 
thread-1 
thread-2 
thread-3 
thread-4 
thread-5 
thread-6 
thread-7 
thread-8 
thread-9 


My 
thread-10 ,My ni 
thread-11 ,My ni 
thread-12 ,My ni 
thread-@ ,My ni 


he list is empty 


thread-2 
thread-3 
thread-4 
thread-5 
thread-6 
thread-7 
thread-8 
is over 


- 
3 


inggWINDOWS10 E:\sa 


thread-1 ,My ni 





z 


HOH M A A A M 





thread-7 ,My name is function-27, now time: 0i 
thread-8 ,My name is function-26, now time: Oi 
thread-9 ,My name is function-25, now time: Ol 
thread-10 ,My name is function-24, now time: 
thread-11 
thread- 
thread-0 
thread-1 ,My name is function-20, now time: 
function-19, now time: 
function-18, now time: 
function-17, now time: 
thread-5 ,My name is function-16, now time: 
thread-6 ,My name is function-15, now time: 
thread-7 ,My name is function-14, now time: 
thread-8 ,My name is function-13, now time: 
thread-9 ,My name is function-12, now time: 
thread-10 ,My name is function-1l, now time: 
thread-11 ,My name is function-10, now time: 
thread-12 ,My name is function-9, now time: Ol 
thread-0 ,My name is function-8, now time: 
thread-1 ,My name is function-7, now 
thread-2 ,My name is function-6, now 
thread-3 ,My name is function-5, now 
thread-4 ,My name is function-4, now 
thread-5 ,My name is function-3, now 
thread-6 ,My name is function-2, now 
am rhread-7 „My name is funcrion-l, now 

















oooooooocoo 











BEGBRESSEGRREBESESRESRBRRBEE 








I 





am thread-8 ,My name is function-0, now 











length:6Cin:1 Col:1 Sel:010 Windows (CR LF) ANSI 


图 3-17 Windows 下 使 用 线程 锁 的 多 线程 





通过 对 比 可 以 看 出 使 用 线程 锁 的 情况 下 数据 才能 保证 安全 。 程 序 才能 按照 设计 的 方式 运 
行 。 如 果 不 使 用 线程 锁 ，Linux 下 没什么 问题 〈 这 只 是 特例 ， 并 不 代表 不 使 用 线程 锁 Linux 
下 就 是 安全 的 ) . Windows 下 必定 会 出 现 这 样 那样 的 问题 。 


3.7 本 章 小 结 


本 章 的 几 个 Python 小 程序 都 比较 简单 。 程 序 简单 没关系 ， 只 要 可 以 解决 问题 就 行 。 学 习 
Python 最 快 的 方法 就 是 多 写 程序 ， 用 程序 解决 实际 问题 。Python 并 不 复杂 ， 多 写 、 多 做 、 多 


练 很 快 就 能 掌握 。 
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第 4 章 
<Python 把 虫 常 用 模块 > 


Python 最 强大 的 方面 就 体现 在 它 那 近 乎 无 限 的 模块 库 上 。 相 信 没 有 人 能 熟悉 所 有 的 模块 
功能 ， 也 没有 这 个 必要 。 只 需要 了 解 标准 模块 库 就 可 以 解决 大 部 分 的 问题 了 ， 特 殊 需 求 先 找 
第 三 方 的 模块 。 如 果 还 是 解决 不 了 问题 ， 那 就 到 github 磁 碰 运气 。 如 果实 在 是 运气 不 佳 ， 就 
自己 动手 丰衣足食 吧 。Python 3.6 标准 模块 库 的 官方 文档 可 参考 https://docs.python.org/3.6/py- 
modindex.html。 本 章 只 讲解 与 网 络 怜 虫 有 关 的 常用 模块 。 


PSM RAZ 


网 络 息 虫 ， 听 起 来 似乎 很 智能 ， 实 际 上 也 没 那 么 复杂 。 可 以 简单 地 理解 为 使 用 某 种 编程 
语言 (这 里 当然 是 使 用 Python 语言 ) 按照 一 定 的 顺序 、 规 则 主动 抓 取 互联 网 特定 信息 的 程序 
或 者 脚本 。 


4.1.1. RIZR IE FR SCELERE 


Python 疏 虫 的 原理 很 简单 。 第 一 步 : 使 用 Python 的 网 络 模块 ， 比 如 urllib2. httplib. 
requests 等 模块 ， 模 拟 浏览 器 向 服务 器 发 送 正常 的 http (Chttps) 请 求 。 服 务 器 正常 响应 后 ， 主 
机 将 收 到 包含 所 需 信 息 的 网 页 代码 。 第 二 步 : 主机 使 用 过 滤 模 块 ， 比 如 lxml、html.parser、re 
等 模块 ， 将 所 需 信 息 从 网 页 代码 中 过 滤 出 来 。 

在 第 一 步 中 ， 为 了 使 Python 发 送 的 http Chttps) 请 求 更 像 是 浏览 器 发 送 的 ， 可 以 在 其 中 
添加 header 和 cookies。 为 了 欺骗 服务 器 的 反扑 虫 ， 可 以 采取 利用 代理 或 间隔 一 段 时 间 发 送 一 
个 请 求 ， 以 尽 可 能 地 避 开 反扑 虫 。 

第 二 步 的 过 滤 比 较 简单 ， 只 需要 熟悉 一 下 过 滤 模块 的 规则 就 可 以 了 。 如 果 一 个 模块 无 法 
完全 过 滤 有 效 信息 〈 通 常 一 个 模块 就 足够 了 ) ， 可 以 采取 多 个 模块 协作 的 方式 ， 特 别 是 re 模 
块 ， 虽 然 使 用 起 来 比较 复杂 ， 但 用 于 过 滤 非 常 有 效 。 

虽然 项 目 被 称 为 网 络 候 虫 ， 但 实际 上 如 何 从 服务 器 上 顺利 地 得 到 数据 更 加 重要 ， 毕 况 今 
时 不 同 往日 了 ， 随 便 上 一 个 requests 模块 就 能 从 网 站 得 到 数据 的 好 日 子 已 经 一 去 不 复 返 了 。 


相对 于 得 到 数据 而 言 ， 过 滤 数 据 要 简单 得 多 。 


4.1.2 ETER 


IZ E dU X E BRS AMAT 1 页 。 如 果 只 有 1 页 的 数据 ， 那 也 无 须 什 么 息 虫 了 。 直 接 
用 sed、awk、 正 则 就 好 ， 效 率 更 高 。 既 然 是 多 页 那 就 涉及 一 个 顺序 问题 ， 即 先 爬 哪 页 、 后 怜 
哪 页 。 

以 一 个 最 简单 的 疏 虫 为 例 。 从 店 虫 程序 出 发 ， 开 始 爬 向 多 个 页 面 ， 然 后 从 页 面 中 获取 数 
据 。 这 种 形式 有 点 类 似 于 树 状 结构 ， 如 图 4-1 所 示 。 




















i i 


























4-1 ERREA 


MOF MUS NOE PE AT MUP SOY, MRE IE, DE ERE KS ASK 
ARERR. REE IIR, AR Htmll 的 数据 ， 再 从 得 到 的 数据 中 过 滤 
得 到 Datal 。 然 后 请 求 Html2 的 数据 ， 再 过 滤 得 到 Data2， 以 此 类 推 。 个 人 常用 的 bs4 Je dE 
本 都 是 采用 这 种 方法 。 好 处 在 于 简单 直观 ， 非 常 符合 人 类 正常 的 思维 。 也 有 采用 广度 优先 
的 ， 那 就 是 先 将 所 有 的 网 页 数据 收集 完毕 ， 然 后 一 一 过 滤 获 取 有 效 数 据 ， 只 是 采用 这 种 方法 
的 怜 虫 比较 少见 ，Pyspider 就 是 这 种 类 型 的 。 








单机 械 ， 可 能 需要 根据 网 站 的 大 小 、 网 页 的 重要 性 以 及 权重 等 分 成 不 同 的 等 级 来 处。 比 


fe = OR A EA SE BY SERES WR EMAAR RISE SE SLAG, TAA T 
| 较 知 名 的 卜 行 策略 有 pagerank, opic 等 。 

















4.1.3 身份 识别 
在 网 络 上 ， 网 站 服务 器 是 如 何 识别 用 户 身份 的 呢 ? 答案 是 Cookie. 
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Cookie 是 指 网 站 为 了 辨别 用 户 身份 、 进 行 session 跟踪 而 储存 在 用 户 本 地 终端 上 的 数据 
(通常 经 过 加 密 ) 。 比 如 说 有 些 网 站 需要 登录 后 才能 访问 某 个 页 面 ， 在 登录 之 前 ， 你 想 抓 取 
某 个 页 面 内 容 是 不 允许 的 ， 就 可 以 利用 urllib2 库 保 存 我 们 登录 的 Cookie， 再 抓 取 其 他 页 面 就 
达到 目的 了 。 在 Python 中 ， 负 责 Cookie 部 分 的 模块 为 cookielib。 


Python 3 标准 库 之 urllib.request 模块 


涉及 网 络 时 ， 必 不 可 少 的 模块 就 是 urllib 了 。 顾 名 思 义 ， 这 个 模块 主要 负责 打开 URL 和 HTTP 
协议 之 类 的 。 这 个 模块 就 是 Python 2 标准 库 中 的 urllib2 模块 的 升级 版 。Python 3 的 urllib.request E 
块 基本 与 Python 2 的 urllib2 模块 是 一 致 的 。urllib.request 模块 的 官方 文档 可 参考 
https://docs.python.org/3/library/urllib.request.html#module-urllib.request。 


4.2.1 urllib.request 请 求 返 回 网 页 
urllib.request 最 简单 的 应 用 就 是 urllie.request.urlopen 了， 函数 使 用 如 下 : 


urllib.request.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, 
context]]]]]] 


按照 官方 文档 ，urllib.request.urlopen 可 以 打开 HTTP. HTTPS, FTP 协议 的 URL， 主 要 
应 用 于 HTTP 协议 。 参 数 中 以 ca 开头 的 都 是 跟 身份 验证 有 关 的 ， 不 太 常 用 。data 参数 是 以 
post 方式 提交 URL 时 使 用 的 ， 通 常 使 用 得 不 多 。 最 常用 的 就 只 有 URL 和 timeout 参数 了 。 
url 参数 是 提交 的 网 络 地 址 (地 址 全 称 ， 前 端 需 协 议 名 ,后 端 需 端口 ， 比 如 
http://192.168.1.1:80) , timeout 是 超时 时 间 设 置 。 

函数 返回 对 象 有 3 个 额外 的 使 用 方法 。geturl() 函 数 返 回 response 的 url 信息 ， 常 用 于 
url 重 定向 的 情况 。info() 函 数 返回 response 的 基本 信息 。getcode() 函 数 返回 response 的 状 
态 代码 ， 最 常见 的 代码 是 200 服务 器 成 功 返 回 网 页 ，404 请 求 的 网 页 不 存在 ，503 服务 器 
暂时 不 可 用 。 

【示例 4-1】 测试 使 用 urllib.request 模块 打开 百度 的 首页 。 编写 connBaidu.py， 打 开 Putty 
连接 到 Linux， 执 行 命令 : 

cd code/crawler 

vi connBaidu.py 

connBaidu.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 
4 
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5 import urllib.request 


6 


def clear(): 


''' 该 函数 用 于 清 屏 ''' 

print (' 内 容 较 多 ， 显 示 3 秒 后 翻 页 ' ) 

time.sleep (3) 

OS = platform.system() 

if (OS == 'Windows'): 
os.system('cls') 

else: 
os.system('clear') 


def linkBaidu(): 


T 


url = 'http://www.baidu.com' 
Erys 

response = urllib.request.urlopen (url,timeout=3) 

result = response.read() .decode('utf-8"') 
except Exception as e: 

print ("网 络 地 址 错误 ") 

exit() 
with open('baidu.txt', 'w') as fp: 

fp.write (result) 
print ("获取 url 信息 : response.geturl() : $s" $response.geturl()) 
print ("获取 返回 代码 : response.getcode() : $s" %response.getcode()) 
print ("获取 返回 信息 : response.info() : $s" $response.info()) 
print (" 获 取 的 网 页 内 容 已 存 入 当前 目录 的 baidu.txt 中 ， 请 自行 查看 ") 


name == ' main ': 


linkBaidu () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connBaidu.py. connBaidu.py 调用 urllib2 模块 


请 求 百 度 的 主页 ， 显 示 返 


命令 : 





E 





的 信息 并 将 服务 器 答复 的 数据 保存 到 baidu.txt 中 以 备查 询 。 执 行 








Python3 connBaidu.py 


得 到 的 结果 如 图 4-2 所 示 。 
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: response.geturl() : http://www.baidu.com 
response.getcode() : 200 
esponse.info() : Date: Fri, 1. .... ---- 








Content-Type: text/html; charsete-utf-B 

|Transfer-Encoding: chunked 

Connection: C 

Vary: Accept-i 
:FG=1; el 
baidu.cor 
C; expir 
u.com 
23:55:55 


61661c 
T 


: BWS/1 
|X-UA-Compat ib 
BDPAGETYPE: 1 
BDQID: Oxe8fd 
BDUSERID: 0 


获取 的 网 页 内 容 己 存 入 当前 目录 的 baidu.txt 中 ， 请 自行 查看 


king@debian8:~/code/crawler$ ~(] 





图 4-2 运行 connBaidu.py 


a, 31-Dec-3 
1-Dec-37 23 


-age-214748 


从 baidu.txt 的 结果 可 以 看 出 百度 首页 的 页 面 虽 然 很 简洁 ， 但 内 容 还 是 很 丰富 的 。 最 简单 
的 urllib2 用 法 就 是 这 样 了 。 至 于 那些 跟 身份 验证 有 关 的 参数 ， 如 有 需要 请 自行 参考 官方 文档 
BK Google. 


4.2.2 urllib.request 使 用 代理 访问 网 页 
在 使 用 网 络 息 虫 时 ， 有 的 网 站 拒绝 了 一 些 IP 的 直接 访问 ， 这 时 就 不 得 不 利用 代理 了 。 
urllib2 添加 代理 的 方式 不 止 一 种 。 这 里 以 最 简单 也 是 最 直接 的 一 种 为 例 ， 至 于 免费 的 代理 ， 


网 络 上 很 多 ， 可 自行 搜索 一 下 ， 选 择 一 个 确定 可 用 的 Proxy， 这 里 选择 的 是 从 局 域 网 中 自 设 
的 代理 http://192.168.1.99:8080。 
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【示例 4-2] 4i * connWithProxy.py, 4] Ff Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi connWithProxy.py 


connWithProxy.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 #-*= coding: utf-8 -*- 
3 author = 'hstking hst_king@hotmail.com' 


4 


5 import urllib.request 


6 import sys 


7 import re 


9 def testArgument () : 
10 ' "测试 输入 参数 ， 只 需要 一 个 参数 Ur 
11 if len(sys.argv) != 2: 


12 print (' 需 要 且 只 需要 一 个 参数 就 够 了 ') 
13 tipUse() 

14 exit() 

15 else: 

16 TP = TestProxy(sys.argv[1]) 

17 

18 def tipUse(): 

19 " "显示 提示 信息 ttt 


20 print ( "该 程序 只 能 输入 一 个 参数 ， 这 个 参数 必须 是 一 个 可 用 的 proxy') 
2r print('usage: python testUrllib2WithProxy.py http://1.2.3.4:5") 
22 print('usage: python testUrllib2WithProxy.py https://1.2.3.4:5') 


23 

24 

25 class TestProxy (object): 

26 "7 这 个 类 的 作用 是 测试 Proxy 是 否 有 效 ''' 

27 def init (self,proxy): 

28 self.proxy - proxy 

29 self.checkProxyFormat (self.proxy) 

30 self.url = 'https://www.baidu.com' 

S self.timeout = 5 

32 self.flagWord = 'www.baidu.com' # 在 网 页 返回 的 数据 中 查找 这 个 关键 词 

33 self.useProxy (self.proxy) 

34 

35 def checkProxyFormat (self,proxy): 

36 try: 

37 proxyMatch - 
re.compile('http[s]?://[Nd] (1, 3) V. [\d] (1, 3) NV. [Nd] (1, 3) N. [Nd] (1, 3) : [\d]{1,5}$") 

38 re.search (proxyMatch, proxy) .group() 

39 except AttributeError as e: 

40 tipUse () 

41 exit() 

42 flag = 1 

43 proxy = proxy.replace('//','') 

44 EVs 

45 protocol = proxy.split(':')[0] 

46 ip = proxy.split(':')[1] 

47 port = proxy.split(':')[2] 


123 


48 except IndexError as e: 


49 print (' 下 标 出 界 ') 

50 tipUse() 

5T exit() 

52 flag = flag and len(proxy.split(':')) == 3 and len(ip.split('.')) 
== 4 

53 flag = ip.split('.')[0] in map(str,range(1,256)) and flag 

54 flag = ip.split('.')[1] in map(str,range(256)) and flag 

55 flag = ip.split('.')[2] in map(str,range(256)) and flag 

56 flag = ip.split('.') [3] in map(str,range(1,255)) and flag 

51 flag = protocol in ['http', 'https'] and flag 

58 flag - port in map(str,range(1,65535)) and flag 

59 REEERE proxy 的 格式 ''' 

60 if flag: 

61 print (' 输 入 的 http 代理 服务 器 符合 标准 ') 

62 else: 

63 tipUse() 

64 exit() 

65 

66 def useProxy (self,proxy): 

67 ' "利用 代理 访问 百度 ， 并 查找 关键 词 ttt 

68 protocol = proxy.split('://')[0] 

69 proxy_handler = urllib.request.ProxyHandler({protocol: proxy}) 

70 opener = urllib.request.build opener (proxy handler) 

71 urllib.request.install_opener (opener) 

72 try: 

73 response = urllib.request.urlopen(self.url,timeout = 
self.timeout) 

74 except Exception as e: 

75 print (' 连 接 错误 ， 退 出 程序 ') 

76 exit() 

77 result = response.read().decode('utf-8') 

78 print('%s' %result) 

79 if re.search(self.flagWord, result): 

80 print (' 已 取得 特征 词 ， 该 代理 可 用 ') 

81 else: 

82 print (' 该 代理 不 可 用 ') 

83 

84 

85 if name == ' main ': 

86 testArgument () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connWithProxy.py. connWithProxy.py 将 使 用 
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代理 来 访问 百度 的 首页 ， 并 设 定 一 个 特征 词 。 如 果 能 在 返回 的 结果 中 取得 这 个 特征 词 ， 就 说 
明 该 proxy 是 可 用 的 。 执 行 命令 : 
Python3 connWithProxy.py http://192.168.1.99:8080 
得 到 的 结果 如 图 4-3 所 示 。 
a king@debian3: ~/code/crawle - 口 


king@debian8:~/code/crawler$| Python3 connWithProxy.py http://192.168.1.99:8080 


输入 的 http 代 理 服务 器 符合 标准 

















<script> 
location. replace (location.href.replace("https://", "http://")); 


</script> 
关键 词 


<noscript><meta http-equive"refresh" content="0;url=http: /fwww.baidu. com 
/"»«/noscript» 





已 取得 特征 词 ， 该 代理 可 用 


king&debian8:-/code/crawlers [] 








FA 4-3 ”运行 connWithProxy.py 


至 此 ，urllib.request 使 用 代理 打开 网 页 测试 完毕 。 这 个 程序 采用 的 是 函数 与 类 混合 的 形 
式 。 这 个 程序 无 须 修改 即 可 作为 模块 导入 其 他 程序 中 ， 用 于 测试 Proxy 是 否 可 用 。 








urllib.request 是 Python 3 中 使 用 率 非常 高 的 模块 ， 有 很 多 第 三 方 模块 都 是 通过 包装 这 个 模 
N 块 的 功能 而 开发 出 来 的 。 这 是 一 个 必须 掌握 的 模块 。 











4.2.3 urllib.request 修改 header 


在 使 用 网 络 疏 虫 获取 数据 时 ， 有 一 些 站 点 不 喜欢 被 聆 虫 〈 非 人 为 访问 ) 访问 ， 会 检查 连 
接 者 的 “身份 证 ”。 默 认 情况 下 urllibrequest 把 自己 的 版 本 号 Python-urllib/x.y (x 和 y 是 
Python 主 版 本 和 次 版 本 号 ， 例 如 Python-urllib/3.6) 作为 “身份 证 号 码 ” 来 通过 检查 。 这 个 
“身份 证 号 码 ” 可 能 会 让 站 点 迷惑 ， 或 者 干脆 拒绝 访问 。 这 时 可 以 让 Python 程序 冒充 浏览 器 
访问 网 站 。 网 站 是 通过 浏览 器 发 送 过 来 的 User-Agent 的 值 来 确认 浏览 器 身份 的 。 用 
urllib.request 创建 一 个 请 求 对 象 ， 并 给 它 一 个 包含 头 数据 的 字典 ， 修 改 User-Agent 欺骗 网 
站 。 一 般 来 说 ， 把 User-Agent 修改 成 Internet Explorer 是 最 安全 的 ， 改 成 其 他 的 当然 也 行 。 

先 将 准备 工作 做 好 ， 将 所 有 常见 的 User-Agent 全 部 放 到 一 个 userAgents.py 文件 中 在 之 
前 的 程序 中 使 用 过 相似 的 资源 文件 resource.py， 与 之 不 同 的 是 userAgents.py 中 的 User-Agent 
使 用 的 是 字典 结构 ，resource.py 使 用 的 是 列表 结构 。 前 者 适用 于 需要 特定 浏览 器 的 页 面 ， 后 
者 则 适用 于 那些 页 面 比较 友好 的 网 页 ) ， 以 字典 的 形式 保存 起 来 ， 方 便 以 后 当成 模块 导入 使 
用 。userAgents.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
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2 #-*= coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 pcUserAgent = ( 

6 "safari 5.1 - MAC":"User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS 
X 10 6 8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 
Safari/534.50", 

7 "safari 5.1 - Windows":"User-Agent:Mozilla/5.0 (Windows; U; Windows NT 
6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", 

8 "IE 9.0":"User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; 
Trident/5;.07, 

9 "IE 8.0":"User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; 
Trident/4.0)", 

10 "IE 7.0":"User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
6.0)", 

11 "IE 6.0":"User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 
iia bye 

12 "Firefox 4.0.1 - MAC":"User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS 
X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1", 

13 "Firefox 4.0.1 - Windows":"User-Agent:Mozilla/5.0 (Windows NT 6.1; 
rv:2.0.1) Gecko/20100101 Firefox/4.0.1", 

14 "Opera 11.11 - MAC":"User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 
10.6.8; U; en) Presto/2.8.131 Version/11.11", 

15 "Opera 11.11 - Windows":"User-Agent:Opera/9.80 (Windows NT 6.1; U; en) 
Presto/2.8.131 Version/11.11", 

16 "Chrome 17.0 - MAC":"User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 
10 7 0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 
Safari/535.11", 

17 "Maxthon":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; Maxthon 2.0)", 

18 "Tencent TT":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; TencentTraveler 4.0)", 

19 "The World 2.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
NT 5.1)"; 

20 "The World 3.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
NT 5.1; The World)", 

21 "sogou 1.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 
2.X MetaSr 1.0)", 

22 "360":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 
360SE)", 

23 "Avant":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 


Avant Browser)", 
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24 "Green Browser":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
NE SI 

25, 

26 

27 mobileUserAgent = ( 

28 "iOS 4.33 - iPhone":"User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 
4 3 3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) 
Version/5.0.2 Mobile/8J2 Safari/6533.18.5", 

29 "iOS 4.33 - iPod Touch":"User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 
4 3 3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) 
Version/5.0.2 Mobile/8J2 Safari/6533.18.5", 

30 "iOS 4.33 - iPad":"User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4 3 3 like 
Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 
Mobile/8J2 Safari/6533.18.5", 

31 "Android N1":"User-Agent: Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; 
Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 
Mobile Safari/533.1", 

32 "Android QQ":"User-Agent: MQOBrowser/26 Mozilla/5.0 (Linux; U; Android 
2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like 
Gecko) Version/4.0 Mobile Safari/533.1", 

33 "Android Opera ":"User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera 
Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10", 

34 "Android Pad Moto Xoom":"User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; 
en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 
Safari/534.13", 

35 "BlackBerry":"User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; 
en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile 
Safari/534.1+", 

36 "WebOS HP Touchpad":"User-Agent: Mozilla/5.0 (hp-tablet; Linux; 
hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 
Safari/534.6 TouchPad/1.0", 

37 "Nokia N97":"User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 
NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 
(KHTML, like Gecko) BrowserNG/7.1.18124", 

38 "Windows Phone Mango":"User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; 
Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)", 

39 "UC":"User-Agent: UCWEB7.0.2.37/28/999", 

40 "UC standard":"User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999", 

41 "UCOpenwave":"User-Agent: Openwave/ UCWEB7.0.2.37/28/999", 

42 "UC Opera":"User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) 
Opera/UCWEB7.0.2.37/28/999" 

43 ] 





userAgents.py 里 只 包含 了 最 常用 的 User-Agent， 如 有 特殊 需要 可 以 继续 添加 ， 但 在 使 用 
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PE RT foe dr Fe AL FASE User-Agent， 以 免 被 网 站 拒绝 访问 。 


【示例 4-3】 准 备 工 作 完毕 后 ， 开 始 编写 connModifyHeaderpy 。 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


cd code/crawler 
Vi connModifyHeader.py 


connModifyHeaderpy 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #-*- coding: utf=8 -*= 
3 _author_ = 'hstking hst_king@hotmail.com' 
4 
5 import urllib.request 
6 import userAgents 
7 '''userRgents.pY 是 个 自 定义 的 模块 ， 位 置 处 于 当前 目录 下 ' 
8 
9 class ModifyHeader (object) : 
10 '" Hl urllib. request 模块 修改 header ''' 
akt def _ init (self): 
12 # 这 个 是 PC + IE fi) User-Agent 
13 PIUA = userAgents.pcUserAgent.get('IE 9.0') 
14 # 这 个 是 Mobile + UC ff) User-Agent 
15 MUUA = userAgents.mobileUserAgent.get('UC standard') 
16 # 测 试用 的 网 站 选择 的 是 有 道 翻译 
n self.url = 'http://fanyi.youdao.com' 
18 
19 self.useUserAgent (PIUA, 1) 
20 self.useUserAgent (MUUA, 2) 
21 
22 def useUserAgent (self, userAgent ,name): 
23 request = urllib.request.Request (self.url) 
24 
request.add header (userAgent.split(':')[0],userAgent.split(':')[1]) 
25 response = urllib.request.urlopen (request) 
26 fileName - str(name) * '.html' 
27 with open (fileName, 'a') as fp: 
28 fp.write("%s\n\n" %userAgent) 
29 fp.write(response.read().decode('utf-8')) 
30 
Sil IE yee SS pain OB 
32 umh = ModifyHeader () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connModifyHeader.py. connModifyHeader.py 
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使 用 了 2 个 不 同 的 浏览 器 header 访问 有 道 翻译 的 主页 ， 并 将 返回 的 结果 保存 起 来 。 执 行 全 
令 : 


python3 connModifyHeader.py 


得 到 了 1.html 和 2.html， 打 开 这 两 个 网 页 比较 一 下 ， 得 到 的 结果 如 图 4-4 所 示 。 








TB - Iceweaset x 
有 道 翻译 xi 
@ file:///home/king/code/crawler/2.html ve,» |= 





ser-Agent: NOKIAS700/ UCWEB7.0.2.37/28/999 








在 线 翻 译 _ 有 道 - Iceweasel x 
y 在 线 翻译 有 道 x\+ 
€ | & file///home/king/code/crawler/1.html vc| 2 | = 


Iser-AgentMozilla/S.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); User-Agent.Mo; 
(compatible; MSIE 9.0; Windows NT 6.1; TridenvS.0), 


fai EH “免费 、 即 时 的 多 语种 在 线 翻译 











网 易 
日 





4-4 运行 connModifyHeaderpy 


urllib.request 添加 Header 打开 网 页 测试 完毕 。 同 一 网 站 会 给 不 同 的 浏览 器 返回 不 同 的 内 
容 。 所 以 在 使 用 网 络 息 虫 时， 除非 有 反扑 虫 的 限制 (一 般 都 有 反 息 虫 )， 条 件 允 许 的 话 尽 可 
能 使 用 一 个 固定 的 User-Agent。 








Python 3 标准 库 之 logging 模块 


logging 模块 ， 顾 名 思 义 就 是 针对 日 志 的 。 到 目前 为 止 ， 所 有 的 程序 标准 输出 〈 输 出 到 屏 
幕 ) 都 是 使 用 的 print PAA. logging 模块 可 以 蔡 代 print 函数 的 功能 ， 并 能 将 标准 输出 输入 到 
日 志文 件 保存 起 来 ， 而 且 利用 logging 模块 可 以 部 分 替代 debug 的 功能 ， 给 程序 排 错 。 


4.3.1 Ë logging 模块 


首先 要 说 到 的 是 logging 模块 的 几 个 级 别 。 默 认 情况 下 logging 模块 有 6 个 级 别 。 它 们 分 
别 是 NOTSET 值 为 0、DEBUG 值 为 10、INFO 值 为 20、WARNING 值 为 30、ERROR 值 为 
40. CRITICAL 值 为 50《〈 也 可 以 自 定义 级 别 ) 。 这 些 级 别 的 用 处 是 ， 先 将 自己 的 日 志 定 一 个 
Ral, logging 模块 发 出 的 信息 级 别 高 于 定义 的 级 别 ， 将 在 标准 输出 《屏幕 ) 显示 出 来 。 发 出 
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的 信息 级 别 低 于 定义 的 级 别 则 略 过 。 如 果 未 定义 级 别 ， 默 认定 义 的 级 别 是 WARNING. 
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先 测 试 一 下 。 在 Windows 中 打开 IDLE， 执 行 命令 : 


import logging 

logging.NOTSET 

logging. DEBUG 

logging. INFO 

logging .WARNING 

logging.ERROR 
logging.CRITICAL 
logging.debug ("debug message") 
logging.info("info message") 
logging.warning ("warning message") 
logging.error("error message") 


logging.critical("critical message") 


执行 结果 如 图 4-5 所 示 。 


Python 3.6.4 Shel 
File Edit Shell Debug Options Window Help 


Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v. 1900 64 bit (AMD64)] + 
on win32 

Type “copyright”, “credits” or "license()" for more information. 
» 


import logging 
logging. NOTSET 


logging. DEBUG 

logging. INFO 

logging. WARNING 
logging. ERROR 

logging. CRITICAL 
logging. debug (“degub m 


logging.info( info 
logging. warning (“ 


ERROR: root :error ne: 

>>> logging. critical (“critical m 
CRITICAL: root:critical message 
» 1 











4-5 logging 级 别 


使 用 logging 最 简单 的 方法 就 是 logging.basicConfig. logging.basicConfig 的 应 用 方法 为 : 


logging.basicConfig([**kwargs]) 
这 个 函数 可 用 的 参数 有 : 


€ filename: 用 指定 的 文件 名 创建 FiledHandler (后 边 会 具体 讲解 handler 的 概念 ) ， 
这 样 日 志 会 被 存储 在 指定 的 文件 中 。 

€ filemode: 文件 打开 方式 ， 在 指定 了 filename 时 使 用 这 个 参数 ， 默 认 值 为 “a” 还 可 
指定 为 “w”。 

€ format: 指定 handler 使 用 的 日 志 显示 格式 。 


€ datefmt: 指定 日 期 时 间 格式 。 

level: 设置 rootlogger ( 后 边 会 讲解 具体 概念 ) 的 日 志 级 别 。 

€ stream: 用 指定 的 stream 创建 StreamHandler。 可 以 指定 输出 到 sys.stderr,sys.stdout 
或 者 文件 ， 默 认为 sys.stderr。 若 同时 列 出 了 filename 和 stream 两 个 参数 ， 则 stream 
参数 会 被 忽略 。 


参数 中 的 format 参数 可 能 用 到 的 格式 化 串 : 


%(name)s: logger 的 名 字 。 

%(levelno)s: 数字 形式 的 日 志 级 别 。 

%(levelname)s: 文本 形式 的 日 志 级 别 。 

%(pathname)s: 调用 日 志 输出 函数 的 模块 的 完整 路 径 名 ， 可 能 没有 。 
%(filename)s: 调用 日 志 输出 函数 的 模块 的 文件 名 。 

%(module)s: 调用 日 志 输 出 函数 的 模块 名 。 

%(funcName)s: 调用 日 志 输 出 函数 的 函数 名 。 

%(lineno)d: 调用 日 志 输 出 函数 的 语句 所 在 的 代码 行 。 

%(created)f: 当前 时 间 ， 用 UNIX 标准 的 表示 时 间 的 浮 点 数 表示 。 
%(relativeCreated)d: 输出 日 志 信息 时 ， 自 logger 创建 以 来 的 毫秒 数 。 
%(asctime)s: 字符 串 形式 的 当前 时 间 。 默 认 格 式 是 “2003-07-08 16:49:45,896” 。 
过 号 后 面 的 是 毫秒 。 

%(thread)d: 线程 ID。 可 能 没有 。 

%(threadName)s: 线程 名 。 可 能 没有 。 

%(process)d: 进程 ID。 可 能 没有 。 

%(message)s: 用 户 输出 的 消息 。 


还 有 一 些 参 数 应 用 与 进程 线程 等 高 级 应 用 ， 可 自行 参考 官方 文档 或 Google。 
参数 中 的 datefmt 是 日 期 的 格式 化 ， 最 常用 的 几 个 格式 化 是 : 


€ WY: 年 份 的 长 格式 ， 如 1999。 
Soy: 年 份 的 短 格式 ， 如 99。 
%m: 月 份 ，01~12。 

%d: 日 期 ，01~31。 

%H: 小 时 ，0~23。 

%w: 星期 ，0~6， 星 期 天 是 0。 
%M: 447, 00-59, 

€ %S: #7, 00-59, 


日 期 格式 化 的 参数 还 有 一 些 不 太 常用 的 ， 这 里 就 不 多 做 介绍 了 。 读 者 可 自行 参考 官方 文 
档 或 Google。 
【示例 4-4】 下 面 利用 logging.basicConfig 写 一 个 最 基本 的 日 志 模块 应 用 程序 ， 编 写 
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testLogging.py, Jf Putty 连接 到 Linux, PAT ARS: 


cd code/crawler 
vi testLogging.py 


testLogging.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#-*= coding; utf=8 =*= 
__author__ = 'hstking hst_king@hotmail.com' 


class TestLogging (object): 
def init (self): 


[E 
2 
3 
4 
5 import logging 
6 
7 
8 
9 logFormat='%(asctime)-12s $(levelname)-8s $(name)-10s %(message)-12s' 


10 logFileName = './testLog.txt' 
11 
12 logging.basicConfig(level = logging.INFO, 


13 format - logFormat, 
14 filename - logFileName, 
15 filemode = 'w') 


16 

17 logging.debug('debug message') 

18 logging.info('info message') 

19 logging.warning('warning message') 
20 logging.error('error message') 

21 logging.critical('critical message!) 
EE 

23 





24 if name — "main '; 


25 tl = TestLogging() 
按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testLogging.py. testlogging.py 用 于 测试 
logging 模块 。 该 脚本 使 用 不 同 的 级 别 向 logger 发 送 了 几 条 信息 。 执 行 命令 : 


python3 testLogging.py 
cat testLog.txt 


得 到 的 结果 如 图 4-6 所 示 。 














iP king@debian8: ~/code/crawler 


er$ python3 testLogging.py ^ 
testLog.txt 

root info message 

root warning message 

root error message 

L root critical message 





4-6 run testLogging.py 


默认 的 logging 2 Hil logging. INFO (程序 第 12 行 ) ， 而 logging.debug (程序 第 17 £1) 
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的 级 别 低 于 logging.INFO， 所 以 没有 显示 。 
在 程序 中 的 关键 位 置 插 入 log 信息 ， 执 行 Python 程序 时 出 现 什么 问题 ， 可 以 直接 查找 日 
志文 件 ， 无 须 再 一 步 步 地 debug 调试 。 





4.8.0 自 定 义 模块 myLog 

使 用 logging 模块 很 方便 ， 但 在 编写 过 程 中 添加 一 大 堆 的 代码 就 不 是 那么 愉快 的 事情 
了 。 好 在 Python 有 强大 的 import， 完 全 可 以 先 配 置 好 一 个 myLog.py， 以 后 需要 使 用 时 直接 
导入 程序 中 即 可 。 

【示例 4-5】 编写 myLog.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 

vi myLog.py 

myLog.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
t -t- coding:utf=-8 =*= 


m 


. author  - 'hstking hst kingGhotmail.com' 


import logging 
import getpass 
import sys 


wQ 0 -) O OQ SB QN 


m 
o 


# 定义 MyLog 类 
class MyLog (object): 


m 
m 


12 "这 个 类 用 于 创建 一 个 自用 的 Log ''' 

13 def init (self): # 类 MyLog 的 构造 函数 

14 user = getpass.getuser() 

15 self.logger = logging.getLogger (user) 

16 self.logger.setLevel (logging. DEBUG) 

17 logFile = './' + sys.argv[0][0:-3] + '.log' # 日 志文 件 名 

18 formatter = logging.Formatter('%(asctime)-12s %(levelname) -8s 
%(name)-10s % (message) -12s') 

19 

20 ''"' 日 志 显示 到 屏幕 上 并 输出 到 日 志文 件 内 ''' 

zal logHand = logging.FileHandler (logFile) 

22 logHand.setFormatter (formatter) 

23 logHand.setLevel (logging.ERROR) # 只 有 错误 才 会 被 记录 到 logfile 

24 

25 logHandSt = logging.StreamHandler () 

26 logHandSt.setFormatter (formatter) 

ZA 

28 self.logger.addHandler (logHand) 

29 self.logger.addHandler (logHandSt) 
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30 


31 "rt 日 志 的 5 个 级 别 对 应 以 下 的 5 个 函数 11 
32 def debug(self,msg) : 

SS self.logger.debug (msg) 

34 

35 def info(self,msg): 

36 self.logger.info (msg) 

37 

38 def warn(self,msg): 

39 self.logger.warn (msg) 

40 

41 def error(self,msg): 

42 self.logger.error (msg) 

43 

44 def critical(self,msg): 

45 self.logger.critical (msg) 
46 

47 if name == ' main "': 


48 mylog - MyLog() 
49 mylog.debug("I'm debug") 
50 mylog.info("I'm info") 


5d mylog.warn("I'm warn") 
52 mylog.error("I'm error") 
53 mylog.critical("I'm critical") 


1% Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 myLog.py. myLog.py 可 以 当成 一 个 脚本 执 
行 ， 也 可 以 当成 一 个 模块 导入 其 他 的 脚本 中 执行 。 在 这 里 是 作为 脚本 使 用 的 ， 它 的 作用 是 将 
所 有 的 log 信息 显示 到 屏幕 上 、 错 误 信 息 存 入 log 文档 中 。 执 行 命令 : 

Python myLog.py 

cat myLog.log 


得 到 的 结果 如 图 4-7 所 示 。 


i king@debian8: ~/code/crawler 


/code/crawler$ python3 myLog.py 


CRITICAL 
/code/crawler$ cat myLog.log 
42:41,026 ERROR king 
2018-01-21 13:42:41,026 CRITICAL king 
kingédebianB:-/code/crawlerS 





4-7 运行 myLog.py 


【示例 4-6】 下 面 再 写 一 个 testMyLog.py， 在 程序 中 导入 图 4-7 中 的 myLog.py 作为 模块 使 
用 。 编 写 testMyLog.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
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vi testMyLog.py 


testMyLog.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #=*- coding: utf-8 =*= 


3 author = 'hst king hst kingGhotmail.com' 
4 

5 from myLog import MyLog 

6 

7 if name == ' main ': 


8 ml = MyLog() 
9 ml.debug('I am debug message') 


10 ml.info('I am info message') 

11 ml.warn('I am warn message') 

12 ml.error('I am error message') 

13 ml.critical('I am critical message') 


Jk Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testMyLog.py. testMyLog.py 调用 了 
myLog.py， 将 它 作 为 模块 使 用 。 执 行 命令 : 


python testMyLog.py 


cat testMyLog.log 


得 到 的 结果 如 图 4-8 所 示 。 


AP king@debian8: ~/code/crawler 


de/crawler$ vi testMyL 
de/crawler$ pytho: og.py 
DEBUG m debug message 
fo message 
message 
I am error message 
I am critical message 
tMyLog.log 
29,402 ERROR king | error message 
29,403 CRITICAL king I am critical message 
code/crawler$ 





图 4-8 导入 自 定 义 模块 


在 编程 时 ， 有 时 为 了 查看 程序 的 进度 和 参数 的 变化 ， 在 程序 中 间 插 入 了 大 量 的 print。 检 
查 完 毕 后 又 要 逐个 删除 ， 费 时 费力 。 使 用 log 后 就 简单 多 了 ， 调 试 信息 直接 保存 为 日 志文 件 
即 可 。 


Ll re 模块 (正则 表达 式 ) 


在 编写 网 络 爬 虫 时 ， 还 有 一 些 模块 是 必 不 可 少 的。 这 些 模块 使 用 频率 不 高 ， 如 果 不 想 深 
究 ， 稍 作 了 解 即 可 。 
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4.4.1 re 模块 〈 正 则 表达 式 操作 ) 
re 模块 是 文件 处 理 中 必 不 可 少 的 模块 ， 主 要 应 用 于 字符 串 的 查找 、 定 位 等 。 在 使 用 网 络 
Edu, BERAE, re 模块 配合 urllib2 模块 也 可 以 完成 简单 的 吟 虫 功能 。 先 来 看 看 
所 谓 的 正则 表达 式 ， 以 下 是 Python 支持 的 正则 表达 式 元 字符 和 语法 。 
. 字符 
: 匹配 任意 除 换行 符 \n 外 的 字符 ，.abc 匹配 abc. 
\: 转 义 字符 ， 使 后 一 个 字符 改变 原来 的 意思 ，a\.bc 匹配 abe. 
L.]: FAR (字符 类 ) 。 对 应 字符 集中 的 任意 字符 ， 第 一 个 字符 是 ^ 则 取 反 。 
a[bc]d 匹配 abd 和 acd. 
. 预定 义 字符 集 
\d: 数字 [0-9]。 
\D: FN]. 
6 F AE H\tnn\fiv]. 
\S: 非 空白 字符 [As]。 
Ww: 单词 字符 [a-zA-Z0-9 ]. 
\W: 非 单 词 字符 [A\w]。 
. 数量 词 
* “匹配 前 一 个 字符 0 RAMA, al*b 匹配 ab、alb、al1b…… 
+: ”匹配 前 一 个 字符 1 或 无 限 次 。al*b 匹配 alb、al1b……- 
?: ”匹配 前 一 个 字符 0 或 1 次 。al*b 匹配 ab、alb。 
(m): 匹配 前 一 个 字符 m 次 。al{3}b 匹配 alllb。 
{mn}: 匹配 前 一 个 字符 m 至 n 次 。al{2,3}b 匹配 allb、alllb。 


. 边界 匹配 


A; 匹配 字符 串 开 头 ， 如 ^abc 匹配 以 abe 开头 的 字符 串 。 
$: ”匹配 字符 串 结尾 ， 如 xyz$ 匹 配 以 xyz 结尾 的 字符 串 。 
\A: 仅 匹 配 字符 串 开 头 ， 如 \Aabc。 

\Z: 仅 匹 配 字符 串 结尾 ， 如 Xyz\Z. 


Python 的 re 模块 提供 了 两 种 不 同 的 原始 操作 : match 和 search. match 是 从 字符 串 的 起 
点 开始 做 匹配 ， 而 search (perl BRU) 是 对 字符 串 做 任意 匹配 。 最 常用 的 几 个 re 模块 方法 如 
T: 


€  recompile(pattern, flags=0): 将 字符 串 形 式 的 正则 表达 式 编译 为 Pattern HR. 
€ = re.search(string[, pos[, endpos]]): 从 string 的 任意 位 置 开始 匹配 。 
€ re.match(string[, pos[, endpos]]): 从 string 的 开头 开始 匹配 。 





-à 
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€  re.findall(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 列表 。 
€ re.finditer(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 迭代 器 。 一 
般 匹配 findall 就 可 以 了 ， 大 数量 的 匹配 还 是 使 用 finditer 比较 好 。 


简单 地 测试 一 下 ， 打 开 IDLE， 执 行 命令 : 


import re 

s = 'I am python modules test for re modules' 
re.search('am',s) 

re.search('am',s) .group() 

re.match('am',s) 

re.match('I am',s) 

re.match('I am',s) .group() 
re.findall('modules',s) 
re.finditer('modules',s) 

for sre in re.finditer('modules',s): 


print (sre.group()) 


执行 结果 如 图 4-9 所 示 。 





| File Edit Shell Debug Options Window Help 


Python E 4 (v3.6.4:ddBeceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)] + 
on vin 

Type “copyright”, "credits" or "license()" for more information. 

»» t re 

>>> s = 'I am python modules test for re modules’ 

>>> re.search( an’, s) 

<_sre, SRE_Match object; span=(2, 4), match=" am > 

>>> re.search( an’, s). group() 


am 
>>> re.match( an’, s) 

>>> re.match( I am’, s) 

K.sre.SRE Match object: span=(0, 4), match-'I am’> 
2}? re. match( I an’, s).group() 


x» re.findall( modules’, s) 
T nodules" » modules’ ] 
>>> re.finditer( modules’, s) 
<callable_iterator object at Ox0000000002EC73C8> 
>>> for sre in re.finditer(’modules’, s): 
print (sre. group) 


nodules 
nodules 
»» 





图 4-9 re 匹配 字符 串 


44.2 re 模块 实战 


现在 用 re 模块 和 urllib2 模块 来 做 一 个 简单 的 网 络 仆 虫 ， 例 如 看 看 最 近 的 电影 院 播放 的 今日 电 
。 先 找 找 最 近 的 影院 ， 就 以 金 揭 影院 为 例 。 找 到 影院 页 面 htpy/www.wandacinemas.com/， 先 使 用 
urllib2 模块 抓 取 整 个 网 页 ， 再 使 用 re 模块 获取 影视 信息 。 


【示例 4-7】 编 写 crawIWithRe.py, Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
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vi crawlWithRe.py 


crawIWithRe.py 的 代码 如 下 : 
1 #!/usr/bin/env python 
2 #-*- coding: utf-8 —*— 
3 author  - 'hstking hstking@hotmail.com' 
4 
5 import re 
6 import urllib.request 
7 import codecs 
8 import time 
9 
10 class Todaymovie (object) : 
11 "RN Sei bes AL 111. 
12 def init (self): 
13 self.url = 'http://www.wandacinemas.com/' 
14 self.timeout = 5 
15 self.fileName = 'wandaMovie.txt' 
16 "7 "内 部 变量 定义 完毕 '"" 
L7 self.getmovieInfo() 
18 
19 def getmovieInfo (self): 
20 response - 
urllib.request.urlopen(self.url,timeout-self.timeout) 
2m result = response.read().decode('utf-8') 
22 pattern - re.compile('«span class-"icon play" 
title=".*2">') 
23 movieList = pattern. findall (result) 
24 movieTitleList = map(lambda x:x.split('"') [3], movieList) 
25 # 使 用 map 过 滤 出 电影 标题 
26 with codecs.open(self.fileName, 'w', 'utf-8') as fp: 
27 print ("Today is $s \r\n" %time.strftime ("SY-%m-%d") ) 
28 fp.write("Today is $s \r\n" $time.strftime ("$Y-$m- 
$d")) 
29 for movie in movieTitleList: 
30 print ("%s\r\n" $movie) 
31 fp.write("%s \r\n" %movie) 
32 
3 
DA aie Dane qu mann 
35 tm Todaymovie() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 crawlWithRe.py. crawIWithRe.py 使 用 urllib2 
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模块 获取 URL 的 返回 信息 ， 然 后 使 用 re 模块 从 结果 中 过 滤 得 到 当日 电影 的 列表 ， 最 后 显示 
到 屏幕 上 。 执 行 命令 : 


Python3 crawlWithRe.py 


得 到 的 结果 如 图 4-10 所 示 。 


EP king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 crawlWithRe.py 
Today is 2018-01-21 





图 4-10 i&fT crawlWithRe.py 
T LIAS RAE FA 25 Es, opp? Pene Toe Ease d Y. ELEM] P AS A fd 
JR. HRD P.M AN ARLE BE DIS US, dá RE dan] PAX As PAGE ARI. HE 
取 内 容 多 一 点 的 ， 按 照 这 个 方法 写 就 很 痛苦 了 ， 简 单 点 的 办 法 就 是 使 用 爬虫 框架 。 


和 .了 其 他 有 用 模块 


4.5.1 sys 模块 (系统 参数 获取 ) 

sys 模块 ， 顾 名 思 义 就 是 跟 系统 相关 的 模块 ， 这 个 模块 的 函数 方法 不 多 。 最 常用 的 就 只 
有 两 个 。sys.argv 和 sys.exit. sys.argv 返回 一 个 列表 ， 包 含 了 所 有 的 命令 行 参数 ，sys.exit Jill 
是 退出 程序 ， 再 就 是 可 以 返回 当前 系统 平台 。 这 个 模块 比较 简单 ， 稍 作 了 解 即 可 。 


【示例 4-8】 编 写 testSys.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 





vi testSys.py 


testSys.py 的 代码 如 下 : 
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1 #!/usr/bin/env python3 
2 #-*- coding: utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


class ShowSysModule (object) : 


3 
4 
5 import sys 
6 
qi 
8 '''! 这 个 类 用 于 展示 python 标准 库 中 的 sys 模块 ''' 


9 def init (self): 

10 print (‘sys 模块 最 常用 的 功能 就 是 获取 程序 的 参数 ' ) 
Wr self.getArg() 

o Print('" 其 次 就 是 获取 当前 的 系统 平台 ') 

13 self.getOs() 

14 

15 def getArg(self): 

16 print (' 开 始 获取 参数 的 个 数 ' ) 

17 print (' 当前 参数 有 sa 个 ' %len(sys.argv) ) 
18 print (' 这 些 参数 分 别 是 $s' tsys.argv) 

19 

20 def getOs (self): 

21 print ('sys.platform 返回 值 对 应 的 平台 : ' ) 
22 print ('System\t\t\tPlatform') 

23 print ('Linux\t\t\tlinux2') 

24 print ('Windows\t\t\twin32') 

25 print ('Cygwin\t\t\tcygwin') 

26 print ('Mac OS X\t\tdarwin') 

27 print ('0S/2\t\t\tos2') 

28 print ('0S/2 EMX\t\tos2emx') 

29 print ('RiscOS\t\t\triscos') 

30 print ('AtheOS\t\t\tatheos') 

hl prinE('Nn*) 

32 print (' 当 前 的 系统 为 $s' $sys.platform) 
33 

34 if name ==' main ': 

Bb5 ssm = ShowSysModule() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 testSys.py. testSys.py 顾名思义 用 于 测试 sys Bx 
块 。 该 脚本 将 获取 系统 平台 、Python 脚本 参数 的 个 数 、 参 数 的 值 等 信息 。 执 行 命令 : 


python testSys.py 12345 


得 到 的 结果 如 图 4-11 所 示 。 
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i king@debian8: ~/code/crawler 





FA 4-11 3517 testSys.py 


sys 模块 用 处 不 多 ， 但 也 需要 熟悉 。 顾 名 思 义 ， 它 的 主要 作用 就 是 返回 系统 信息 。 


4.5.2 time 模块 〈 获 取 时 间 信 息 ) 

Python 中 的 time 模块 是 跟 时 间 相 关 的 模块 。 这 个 模块 用 得 最 多 的 地 方 可 能 就 是 计时 器 
了 。 本 节 只 介绍 这 个 模块 最 常用 的 几 个 函数 。 

€  time.time(): 返回 当前 的 时 间 堆 。 

€ time.localtime([secs]): 默认 将 当前 时 间 戳 转换 成 当前 时 区 的 struct time. 

€ time.sleep(secs): 计时 器 。 

€ Time.strftime(format[, t]): 把 一 个 struct time 转换 成 格式 化 的 时 间 字 符 串 。 这 个 函数 

支持 的 格式 符号 如 表 4-1 所 示 。 


表 4-1 时 间 字 符 串 支持 的 格式 符号 





BX 

本 地 Clocale) 简化 星期 名 称 

本 地 完整 星期 名 称 

本 地 简化 月 份 名 称 

本 地 完整 月 份 名 称 

本 地 相应 的 日 期 和 时 间 表 示 

一 个 月 中 的 第 几 天 (01 ~31) 

一 天 中 的 第 几 个 小 时 (24 小 时 制 ，00 ~ 23) 
第 几 个 小 时 《〈12 小 时 制 ，01 ~ 12) 
一 年 中 的 第 几 天 (001 ~ 366) 
Hf (01 ~ 12) 

分 钟 数 00 ~ 59) 

本 地 am 或 者 pm 的 响应 符 

秒 (01~61) 

%U 一 年 中 的 星期 数 
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一 个 星期 中 的 第 几 天 〈0~ 6，0 是 星期 天 ) 





和 %U 基本 相同 ， 不 同 的 是 %W 以 星期 一 为 一 个 星期 的 开始 




















本 地 相应 日 其 
本 地 相应 时 间 
wy 简化 的 年 份 00 _99) 
%Y 完整 的 年 从 
m 时 区 的 名 字 〈 如 果 不 存在 为 空 字符 ) 
" D 





备注 : 在 使 用 strptime0 函 数 时 ，%p WA 配合 使 用 才 有 效 。%S 中 的 秒 是 0-61, AEP HH oA 
秒 。 在 使 用 strtime() 函 数 时 ， 只 有 当年 中 的 周 数 和 天 数 被 确定 时 ，%U 和 %W 才 被 计算 。 


简单 地 测试 一 下 ， 在 Windows 中 打开 IDLE， 执 行 命令 : 
import time 

time.time() 

time.localtime() 

for i in range(5): 

time.sleep(1) 

print i 

time.strftime('$Y-$m-$d $X' ,time.localtime()) 


执行 结果 如 图 4-12 所 示 。 








File Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6. d:ddBeceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)) 
on win32 

Type "copyright^, "credits" or "license()" for more information. 

>>> time 

>> tine. time() 

1516588288. 2172394 

>>> tine. Localtime () 

time.struct time(tm year-2018, tm mon-l, tm mday-22, tm hour-i0, tm min-3l, tm s 
ec=35, tm wday-Ü, tm yday-22, tm isdst-D) 

> iin range(5): 

tine. sleep (1) 

print (i) 


Aom-o 


>>> time.strftime( XY-Xm-Xd XX', time. localtime()) 
pois ol-22 10:32:23" 
>» 








4-12 show time module 
【示例 4-9】 做 个 简单 的 程序 ， 实 验 一 下 time 模块 。 编 写 testTime.py， 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


cd code/crawler 
vi testTime.py 


testTime.py 的 代码 如 下 : 


1 #!/usr/bin/env python 
2 #-*- coding: utf-8 -*- 
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. author = 'hstking hst_king@hotmail.com' 


import time 
from myLog import MyLog 
tr! 这 里 的 myLog 是 自 建 的 模块 ， 处 于 该 文件 的 同一 目录 下 " ' " 


wow OIF 1 Be w 


10 class TestTime (object): 
idt def _ init (self): 


ie self.log = MyLog() 

13 self.testTime() 

14 self.testLocaltime() 

15 self.testSleep() 

16 self.testStrftime() 

imi 

18 def testTime (self): 

19 self.1o0g.info(' 开 始 测试 time .time () 函数 ') 

20 print (' 当 前 时 间 玲 为 : time.time() = $f' %time.time()) 

21 print (' 这 里 返回 的 是 一 个 浮 点 型 的 数值 ， 它 是 从 1970 纪元 后 经 过 的 浮 点 秒 数 ') 

22 print('\n') 

23 

24 def testLocaltime (self): 

25 self.log.info('JfifBiliR time. localtime () 函数 ') 

26 print (' 当 前 本 地 时 间 为 : nowTime- $s' %time.strftime('%Y-%m-%d 
$H:$M$S')) 

ei print (' 这 里 返回 的 是 一 个 struct time 结构 的 元 组 ') 

28 print ('\n') 

29 

30 def testSleep (self): 

B self.1og.info(' 开 始 测试 time.sleep() 函 数 ') 

32 print (' 这 是 个 计时 器 : time.sleep(5)') 

33 print (' 闭 上 了 眼睛 数 上 5 秒 就 可 以 了 ') 

34 time.sleep (5) 

35 print ('\n') 

36 

37 def testStrftime (self): 

38 self.1o0g.info(' 开 始 测试 time .strftime () 函数 ') 

39 print (' 这 个 函数 返回 的 是 一 个 格式 化 的 时 间 ') 

40 print('time.strftime("$$Y-$$m-$$d $$X",time.localtime()) = %s' 
Stime.strftime ("%Y-%m-%d $X",time.localtime())) 

41 print('Nn') 

42 

43 
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44 if name . main ": 


45 tt = TestTime() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testTime.py. testTime.py 测试 了 time 模块 的 
定时 器 功能 ， 并 显示 当前 时 间 。 执 行 命令 : 


Python testTime.py 


得 到 的 结果 如 图 4-13 所 示 。 


P kingGdebian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 testTime.py 
2018-01-22 10:48:05,774 INFO king FF fü WK cime. time 0 I 
MNARA: time.time() = 1516589285.774577 

这 里 返回 的 是 一 个 浮 点 型 的 数值 ， 它 是 从 1970 纪 元 后 经 过 的 浮 点 秒 数 


2018-01-22 10:48:05,774 INFO king 开始 测试 ime.localtime1() 函 数 
当前 本 地 时 间 为 : nowTime= 2018-01-22 10:4805 
这 里 返回 的 是 一 个 struct_time 结 构 的 元 组 


2018-01-22 10:48:05,775 INFO king 开始 测试 time .sleep() 函 数 
这 是 个 计时 器 : time.sleep(5) 
闭 上 眼睛 数 上 5 秒 就 可 以 了 


2018-01-22 10:48:10,781 INFO king 开始 测试 ime.strftime() 函 数 
这 个 函数 返回 的 是 一 个 格式 化 的 时 间 


time .strftime ("tY-tm-td #X",time.localtime()) = 2018-01-22 10:48:10 


king@debian8:~/code/crawler$ 





图 4-13 运行 testTime.py 
time 模块 还 有 很 多 函数 ， 最 常用 的 还 是 计时 器 ， 其 次 就 是 做 时 间 戳 了 。 


4.6 本 章 小 结 


如 果 只 想 大 致 介绍 Python 网 络 朴 虫 ， 熟 悉 了 这 些 模块 也 就 差不多 了 。 即 使 腿 虫 中 可 能 还 
需要 其 他 模块 ， 也 无 须 担心 ， 大 多 也 只 是 需要 模块 中 的 某 个 函数 。 完 全 可 以 把 它 当 成 函数 使 
用 ， 这 样 就 简单 多 了 。Python 的 标准 模块 差不多 有 300 个 。 熟 悉 所 有 的 模块 既 没 必要 ， 也 不 
可 能 ， 用 到 哪个 模块 就 熟悉 哪个 模块 ， 这 样 就 可 以 了 。 
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Pea £i E He D Joe s A (10 RE A. od A ats BEA AE ie E BE TO JE S Re A 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 ， 但 网 站 不 可 能 都 是 统一 的 ， 都 有 自 
己 的 特点 ， 每 个 页 面 都 可 能 需要 进行 微调 。 如 果 所 有 的 爬虫 都 这 样 写 ， 工 作 量 未 免 太 大 了 
o MAFA TIERE 

Python Fie HEAR A>, AR EA Scrapy 了 。 首 先 它 的 资料 比较 全 ， 网 上 的 指 
南 、 教 程 也 比较 多 。 其 次 它 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 所 需 的 内 容 ， 
非常 方便 。 


5.1 se Scrapy 


Scrapy 的 官网 是 http://scrapy.org/， 目 前 版 本 是 Scrapy 1.5. Scrapy 的 安装 方式 很 多 ， 宣 
网 上 就 给 出 了 4 种 ， 即 PyPI、Conda、APT 、Source 安装 。 


5.1.1 Windows 下 安装 Scrapy 环境 


Windows 下 安装 Scrapy 除了 不 能 使 用 APT 安装 外 ， 其 他 的 三 种 方法 都 是 可 以 的 。 这 里 
选择 最 简单 的 PyPI 安装 ， 也 就 是 pip 安装 。pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 了 
Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd， 执 行 一 
条 命令 而 已 。 打 开 cmd 并 执行 命令 : 

pip install scrapy 


执行 结果 如 图 5-1 所 示 。 





sce 一 口 x 


Microsoft Windows [版 本 10.0. 16299. 192] ^ 
(c) 2017 Microsoft Corporation。 保 留 所 有 权利 。 


:\Users\king>pip install scrapy 
ollecting scrapy 

Downloading http://pypi. doubanio. com/packages/a8/96/3affellcf53a5d210553691911 
Bd5b453479038bb4862738724ceda3b83¢/Scrapy-l. 4. O-py2. py3-none-any.whl (248kB) 
T 102kB 3.3MB/s eta 0: 
| 112kB 3. OMB/s eta 

| za 3. THB/s eta à 0 

| 133kB 3. 4MB/s eta 0 

| 143kB 4. 2Nb/s eta 

| 153kB 4, OMB/s eta 

| 163kB 5.2NB/s et 

| 174kB 5. 3IB/s 

| 184kB 5. 5MB/s 

| 194kB 6. OMB/ 











B 8. 8IB/s 
ollecting Twisted>=13. 1. rapy) 
Downloading http://pypi. doubanio. com/packages/a2/37/2 606c45d75aa9792369 

BO2cc63aadbbcf7b51607560180dd099d2/Twi sted-17. 9. 0. tar. 

31 9i . TIB/s eta 0: 

9 .6MB/s eta 

983kB 11. 5NB/s eta 


图 5-1 使 用 pip 安装 Scrapy 

Windows 下 安装 Scrapy 可 能 会 遇 到 依赖 包 Twisted 无 法 安装 的 问题 用 都 没什么 问 

题 ) 。 如 果实 在 安装 不 了 ， 可 以 选择 安装 Anaconda 后 使 用 Conda 包 管 理工 iiia Scrapy 
for Python 3. 

















5.1.2. Linux 下 安装 Scrapy 


Linux 下 也 只 能 采取 pip FSOSERMURIOR Scrapy，， 
了 Python 2 和 Python 3。 因 此 安装 命令 需要 稍微 修改 一 





Python3 -m pip install scrapy 


执行 结果 如 图 5-2 所 示 。 





Ed 5-2 使 用 apt-get 安装 Scrapy 
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查看 安装 的 Scrapy 版 本 ， 如 图 5-3 所 示 。 


P king@debians: ~ 


kingêdebian8:~$ scrapy 
Scrapy 1.5.0 - no active project 


Usage: 
scrapy «command» [options] [args] 


Available commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 


runspider Run a self-contained spider (without creating a project) 
settings Get settings values 

shell Interactive scraping console 

startproject Create new project 

version Print Scrapy version 

view Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 


Use "scrapy «command» -h" to see more info about a command 
kingédebianB:-$ 
kingédebian8:-$ 





5-3 Scrapy 版 本 
现在 Scrapy 已 经 安装 完毕 ， 可 以 使 用 了 。 


5.1.3. vim 编辑 器 


本 章 的 Scrapy 项 目 主要 是 在 Linux 下 运行 。 目 前 在 Linux 下 最 强大 的 IDE 还 是 Eclipse, 
但 最 方便 的 却 是 vim (vim 是 vi 的 强化 版 ， 而 vi 是 所 有 Linux 发 行 版 本 都 默认 安装 的 ) 。 

vim 是 一 个 文本 编辑 器 ， 在 上 手 时 可 能 稍微 有 点 麻烦 。 它 有 一 些 快 捷 键 和 命令 是 必须 要 
记 住 的 《实际 上 只 需要 记 住 常 用 的 几 个 操作 就 可 以 了 ， 比 如 定位 、 复 制 、 粘 贴 、 删 除 、 蔡 
Bee ) ， 可 以 边 使 用 边 记忆 。 等 熟悉 了 vim 的 操作 方法 ， 就 会 发 现 文本 编辑 是 如 此 简单 。 
对 不 同 的 编程 语言 配合 不 同 的 插件 ， 可 以 将 vim 配置 成 为 一 个 专属 的 IDE. 

vim 安装 非常 简单 ， 使 用 Putty 登录 Linux fa, VA root 用 户 执行 命令 : 


apt-get install vim 


vim 的 配置 文件 是 /etc/vim/vimre Fil/home/‘user’/.vim/vimre (对 于 用 户 king 来 说 就 是 
/home/king/.vim/vimrc) 。 前 者 是 系统 配置 文件 ， 后 者 是 用 户 的 配置 文件 。 两 者 相 冲 突 ， 则 以 
后 者 为 主 〈 这 个 有 点 类 似 于 编程 语言 中 的 全 局 变量 与 函数 变量 同名 时 作用 域 的 关系 ) 。 

vim 的 配置 项 很 多 ， 这 里 不 一 一 列举 ， 为 了 编写 Python 程序 方便 ， 这 里 只 修改 最 简单 的 
设置 。 笔 者 的 vimre 文件 如 下 : 

1 set tabstop=4 

2 set number 

3 set noexpandtab 


第 1 行 的 设置 是 将 tabstop 设置 成 4 个 空格 ， 第 2 行 是 显示 行 号 ， 第 3 行 不 将 tabstop Fë 
换 成 空格 。 


如 果 经 常 在 Linux 写 Python 程序 ， 可 以 到 github 上 下 载 vim 变 身 Python IDE 的 配置 文 
件 。 仔 细 调 试 一 下 ，vim IDE 不 比 Windows 下 的 Python IDE #2. 
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D.L Scrapy 选择 器 XPath # CSS 


在 使 用 Scrapy ERAGE HT ti F246 T AE Scrapy (EES. EMMA MAR, PARU 
虫 原理 就 是 获取 网 页 返回 ， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 就 在 提取 内 容 
上 。 如 何 提取 ? 使 用 Python 的 re 模块 ， 前 面 的 章节 中 已 经 党 试 过 了 。 简 单 网 页 用 re 模块 提 
取 可 以 将 就 ， 复 杂 一 点 的 提取 内 容 就 麻烦 了 。 不 是 说 完全 不 可 以 ， 但 是 有 简单 的 方法 又 何必 
去 自己 编写 新 方法 呢 ? 

Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选择 器 (seletors) ， 通 过 特定 的 XPath 
或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HTML 上 。CSS 是 一 门 
将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定 义 ， 并 与 特定 的 HTML 元 素 的 样式 相关 联 。 

Scrapy 的 选择 器 构建 于 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 ， 所 
以 看 你 喜欢 哪 种 选择 器 就 使 用 哪 种 吧 ， 它 们 从 效率 上 看 完全 没有 区 别 。 

















5.2.1 XPath 选择 器 

XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 
属性 进行 遍历 。XPath 含有 超过 100 个 内 建 的 函数 。 这 些 函数 用 于 字符 串 值 、 数 值 、 日 期 和 
时 间 比 较 、 节 点 和 QName 处 理 、 序 列 处 理 、 逻 辑 值 等 。 在 网 络 怜 虫 中 只 需要 利用 XPath 
“采集 ”数据 ， 如 果 想 深入 研究 ， 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指 令 、 注 释 以 及 
文档 节点 或 称 为 根 节点 ) o XML 文档 是 被 作为 节点 树 来 对 待 的 。 树 的 根 被 称 为 文档 节点 或 


【示例 5-1】 做 个 简单 的 XML 文件， 以 便 演示 。 执 行 命令 : 
cd 

mkdir scrapy 

cd code/scrapy 

mkdir -pv scrapy/seletors 

cd scrapy/seletors 

vi superHero.xml 


在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors。 在 该 目录 下 创建 选择 器 的 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 


1 <superhero> 


2 <class> 

3 «name lang="en">Tony Stark </name> 
4 <alias>Iron Man </alias> 

5 <sex>male </sex> 
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6 <birthday>1969 </birthday> 

EH <age>47 «/age» 

8 </class> 

9 «class» 

10 «name lang="en">Peter Benjamin Parker </name> 
alat <alias>Spider Man </alias> 

12 <sex>male </sex> 

13 <birthday>unknow </birthday> 

14 <age>unknown </age> 


15 </class> 
16 <class> 


aly] <name lang="en">Steven Rogers </name> 
18 <alias>Captain America </alias> 
19 <sex>male </sex> 


20 <birthday>19200704 </birthday> 
2 <age>96 «/age» 

22 </class> 

23 </superhero> 


很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 这 个 文件 ， 如 图 5-4 所 示 。 


This XML file does not appear to have any style information associated with it. 


v <superhero> 
¥<class> 
(ame lang=“en" Tony Stark</name> 
<alias>Iron Man</alias> 
<sex>male</sex> 
<birthday>1969</birthday> 
<age>4T</age> 
</class> 
¥<class> 
(name Lang="en" Peter Benjamin Parker</name> 
<alias>Spider Man</alias> 
‘sex>male</sex> 
<birthday>urknow</birthday> 
<age>unknown</age> 
</class> 
v (class? 
<rame lang-"en'?Steven Rogers</name> 
‘alias>Captain America</alias> 
<sex>male</sex> 
<birthday>19200704</birthday> 
<age>96</age> 
</class> 
</superhero> 











图 5-4 选择 器 演示 文件 superHero.xml 
后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 ， 


<alias>Iron Man</alias> 是 元 素 节点 ，lang="en" 是 属性 节点 。 

从 节点 的 关系 来 看 ， 第 一 个 Class 节点 是 name. alias. sex. birthday. age 节点 的 父 节点 
(Parent) 。 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 
(Childer) . name. alias. sex. birthday. age 节点 之 间 互 为 同胞 节点 Csibling) 。 这 只 是 个 
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最 简单 的 例子 ， 如 果 节点 的 “深度 ”足够 ， 还 会 有 先辈 节点 (Ancestor) 和 后 代 节 点 
(Descendant) 。 


XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 5-1 中 列 出 了 最 常用 的 路 径 表 达 式 。 
表 5-1 路 径 表达 式 





表达 式 描述 

nodeName 选取 此 节点 的 所 有 子 节点 

/ 从 根 节点 选取 

Il 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 
选取 当前 节点 

选取 当前 节点 的 父 节点 

@ 选取 属性 

匹配 任何 元 素 节点 

@ 匹配 任何 属性 节点 

Node() 匹配 任何 类 型 的 节点 


下 面 用 XPath 选择 器 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 先 做 好 准备 工作 。 执 行 命令 : 


Python3 

from scrapt.selector import Selector 
with open('./superHero.xml','r') as fp: 
body = fp.read() 

Selector (text=body) .xpath('/*') .extract () 

















首先 启动 Python， 导 入 scrapy.selector 模块 中 的 Selector, 4] FF superHero.xml 文件 ， 并 将 
其 内 容 写 入 到 body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 容 。 
执行 结果 如 图 5-5 所 示 。 


B king@debian8: ~/code/crawler_script - n x 


n 3.4.2 (default, Oct 8 2014, 10:45:20) ^ 
4. on linux 

Type "help", "copyright", "credits" or "license" for more information. 

>>> from scrapy.selector import Selector 

>>> with open('superHero.xml', 'r') as fp: 

body = fp.read() 





Pyt 












>>> bod; 

‘esuperhero>\n<class>\n\t<name lang="en"> 
jalias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</c 
Jass>\n<class>\n\t<name lang="en">Peter Bi rker </name>\n\t<alias>Spidar 
Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unkndw 
l| </age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>C 


ptain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\ 
eaga>oe </age>\n</class>\n</superhero>\n' 


>>> Selector (text=body) .xpath ('/*') .extract () 
*<html><body><superhero>\n<class>\n\t<name lang-"en"»Tony Stark </name>\n\t<ali| 
s>Iron Man </alias>\n\t<sex>male </sex>\r thday>\n\t<age>4 
</age>\n</class>\ Parker </name>\n\t| 
jalias>Spider Man </alias>\n\t<: unknow </birthday>\n| 
t<age>unknown </age> ogers «/name 
\n\t<alias>Captain America </alias>\n\ y>19200704 < 
birthday>\n\t<age>96_</age>\n</class>\n</superhero></body></htm1>" } 

>> v 


5-5 XPath 选择 器 准备 工作 





ny Stark </name>\n\t<alias>Iron Man |< 
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aa 选择 器 在 从 根 节 点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
因为 示例 文件 并 不 是 一 个 标准 的 html 文件 ， 所 以 在 选择 器 中 被 自动 添加 了 <html> 和 
<body> 标 签 。 也 就 是 说 在 选择 器 看 来 ， 示 例文 件 的 根 节点 并 不 是 <superhero> ， 而 是 
<html>。 











好 了 ， 现 在 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 5-6 所 示 。 


>>> print ("采集 superHero.xml 中 第 一 个 class 的 内 容 ') 
[Fes superne ro. WIRE baie sqm 

>>> A 

Iud lass» Wm Ve name 1ang-"en">Tony Stark </name>\n\ccalias>iron Man </alias>\n\t 
<ocu>male </scx>\n\t<birthday>1969 </birthday>\n\t<age>417 </age>\n</elaoa>*} 

>>> 

>>> print (' 采 集 supezaezo.xma 中 最 后 一 个 ciass 的 内 容 ') 

采集 superHero.xml 中 最 后 一 个 class 的 内 容 

>>> Selector (cext=body) xpath, „Lerm (body / superhero/ class [last 1 ac 
[u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captain America </ 


Jalias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age>96 </age>\n 


集 superHero.xml 中 name 属 性 为 en 的 
>>> = . menny: 
[u'<name lang="en">Tony Stark </name>', u'«name lang="en">Peter Benjamin Parker 
', u'<name lang="en">Steven Rogers </name>'] 


>>> Princ(' 采 集 =opezaero.xml 中 倒数 第 二 个 class 的 name 节 点 的 文本 ') 
superHero.xml 中 倒 歼 第 二 个 class 有 的 name 节 点 的 文本 

>>> Selector (cexe=body) xpath 1 Lope (pody/ supezhero/class{iast =i) /name/text 

) -extract () 

[u'Peter Benjamin Parker '] 

>>> à 

>>>_print (* U FERIERE) 

CLF axe ei 

>>> subBody = Selector (text=body) .xpath('/html/bodv/superhero/class[1ast()-1]'). 

extr: 

>>> subBody 

[u'<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man 

</alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </ 

lage>\n</class>"] 


>>> : : EN 
是 
: see i 





图 5-6 XPath 选择 器 收集 数据 


XPath 中 最 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ” 得 不 太 深 的 数据 直接 用 
XPath 选择 器 挑选 数据 就 可 以 了 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 搞定 。 只 要 有 点 耐 
心 ， 再 复杂 的 数据 也 可 以 分 离 出 来 。 


5.2.2 CSS 选择 器 

CSS， 看 起 来 很 眼熟 是 不 是 ? 没 错 ， 就 是 你 已 经 知道 的 那个 CSS 一 一 层 合 样式 表 。CSS 
规则 由 两 个 主要 的 部 分 构成 : 选择 器 以 及 一 条 或 多 条 声明 。 

selector {declarationl; declaration2; ... declarationN } 

CSS 是 网 页 代码 中 非常 重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 
一 下 。 这 里 只 简略 介绍 一 下 与 怜 虫 密切 相关 的 选择 器 ， 表 5-2 中 列 出 了 CSS 经 常 使 用 的 几 个 
选择 器 。 
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#5-2 CSS 选择 器 
选择 器 值 说 明 
„class intro 选择 class= “intro” MIATA TCR 
Hid #firstname 选择 id=“firstname” 的 所 有 元 素 


* * 选择 所 有 元 素 
BAA e TER 

















选择 所 有 <div> 元 素 和 所 有 <p> 元 素 
element element | divp 选择 <div> 元 素 内 部 的 所 有 p 元 素 
[attribute] 选择 带 有 target 属性 的 所 有 元 素 











与 XPath 选择 器 相 比较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 点 缺陷 。 
下 面 就 来 试验 一 下 CSS 选择 器 如 何 收集 数据 ， 如 图 5-7 所 示 。 


[u'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
lclass>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias>\n\t<sexomale </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
|n«/class»', u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
|n America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
>96 </age>\n</class>"] 

>>> 

>>> Selector (text=body) .css('class name') extract () 


tu Te namest, unane rang="en">Peter Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers «/name»'] 


>>> Selector (text=body) .css('class name') extract () [0] 
ee 
>>> Selector (text=body) .css (' [1ang] ') -extract () [0] 
lu'<name lang="en">Tony Stark </name>* 


>>> Selector (text=body) .css(' [lang="en"]") extract 
| (a «Rame Tang" CACERES ony Stark im WZname lang-"en"»Peter Benjamin Parker 


</name>', u'«name lang="en">Steven Rogers «/name»'] 
>>> 





图 5-7 CSS 选择 器 收集 数据 


因为 CSS 选择 器 和 XPath 选择 器 都 可 以 翌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 一 来 收 
集 数 据 会 更 加 方便 。 


52.3 ”其 他 选择 器 


XPath 选择 器 还 有 一 个 .re() 方 法 ， 用 于 通过 正则 表达 式 来 提取 数据 。 然 而 ， 不 同 于 使 
用 .xpath() 或 者 .css() 方 法 ，.re() 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构造 嵌 套 式 的 .re0) 调 
用 。 使 用 方法 如 图 5-8 所 示 。 
Ses Selector (text=body) .xpath(' /htm1/body/superhero/class[1]').re('».*?«") 
[u'»Tony Stark «', u'»Iron Man «', u'»male «', u'>1969 «', u'>47 «'] | 


>>> [ z 


5-8 re 选择 器 收集 数据 
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这 种 方法 并 不 常用 。 个 人 觉得 还 不 如 在 程序 中 添加 代码 ， 直 接 用 re 模块 方便 。 
因为 Scrapy 选择 器 建 于 Ixml 之 上 ， 所 以 它 也 支持 一 些 EXSLT 扩展 ， 但 这 里 就 不 做 说 明 
了 ， 有 兴趣 的 读者 可 以 自行 Google。 


5.3 scrapy 有 e 申 实战 一 : 今日 影视 


还 记得 前 面 章节 中 用 re 模块 操作 爬虫 ， 在 金 逸 影 城 的 网 站 中 怜 取 当 日 影视 信息 的 例子 
吗 ? 实际 上 用 Scrapy 来 疏 取 会 简单 得 多 。 打 个 比方 ， 前 面 章节 中 使 用 re 模块 疏 取 当日 影视 
相当 于 是 做 作文 ， 而 使 用 Scrapy 来 耻 取 就 相当 于 做 填空 题 ， 只 需要 把 相应 的 要 求 填 入 空白 杠 
里 就 可 以 了 。 


5.3.1 创建 Scrapy 项 目 


似乎 所 有 的 框架 ， 开 始 的 第 一 步 都 是 从 创建 项 目 开 始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 
说 明 的 是 Scrapy 项 目的 创建 、 配 置 、 运 行 …… 默 认 都 是 在 终端 下 操作 的 。 不 要 觉得 很 难 ， 其 
实 它 真 的 非常 简单 ， 做 填空 题 而 已 。 如 果实 在 是 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse， 
在 这 个 万 能 IDE 下 操作 。 个 人 推荐 还 是 在 终端 操作 比较 好 ， 虽 然 开 始 可 能 因为 不 熟悉 而 出 现 
很 多 错误 ， 不 过 人 类 不 就 是 在 错误 中 前 进 吗 ? 错 多 了 ， 通 过 排 错 印象 深刻 了 ， 也 就 自然 学 会 
了 。 打 开 Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 

cd 

cd code/scrapy/ 

scrapy startproject todayMovie 

tree todayMovie 





B 
执行 结果 如 图 5-9 所 示 。 
Kingüdebians:s/coda7RcENpyS sctepy startproject todayMovie ^ 
INew Scrapy project 'todayMovie', using template directory '/home/king/anaconda3/ 


lib/python3.6/site-packages/scr 
/home/king/code/scrapy/toda: 


/templates/project', created in: 











-py 
— ap rial 


4 directories, 7 files 
king@debian8 :~/code, fs crapys [] v 


€ 5-9 fill todayMovie Ji H 
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Pe = tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 是 没有 安装 的 ， 可 以 执行 
C 命令 apt-get install tree 来 安装 这 个 命令 。 














这 里 可 以 很 清楚 地 看 到 todayMovie 目录 下 的 所 有 子 文件 和 子 目 录 。 至 此 Scrapy 项 目 
todayMovie 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模版 顺 
便 建立 一 个 基础 的 仆 虫 。 相 当 于 把 填空 题 打印 到 试卷 上 ， 等 待 填空 了 。 当 然 ， 也 可 以 不 用 
Scrapy 命令 建立 基础 怜 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 里 我 们 还 是 怎么 简单 怎么 
来 吧 ， 按 照 提示 信息 ， 在 该 终端 中 执行 命令 : 


cd todayMovie 
scrapy genspider wuHanMovieSpider mtime.com 


执行 结果 如 图 5-10 所 示 。 


4 directories, 7 files 
king@debian8:~/code/scrapy$ cd todayMovie/ 
king@debian8:~/code/scrapy/todayMovie$ scrapy genspider wuHanmovieSpider mtime.c 


lom 

created spider 'wuHanmovieSpider' using template 'basic' in module: 
todayMovie.spiders.wuHanmovieSpider 

king@debian8: ~/code/scrapy/todayMovies [] 


5-10 aE Re dh 


4k, AREKEA OAM eH f. eR f Scrapy MER ia IMC 
到 这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 面 的 工作 就 纯粹 是 填空 了 。 图 5-10 中 第 一 行文 字 scrapy 
genspider 是 一 个 命令 ， 也 是 Scrapy 最 常用 的 几 个 命令 之 一 ， 它 的 使 用 方法 如 图 5-11 所 示 。 


kingedebian8:~/code/scrapy/todayMovies scrapy genspider -h ^ 
Usage 





scrapy genspider [options] <name> <domain> 


Generate new spider using pre-defined templates 


Options 
--help, -h show this help message and exit 
--list, -1 List available templates 
--edit, -e Edit spider after creating it 


--dump-TEMPLATE, -d TEMPLATE 
Dump template to standard output 
--template-TEMPLATE, -t TEMPLATE 
Uses a custom template. 
--force 1f the spider already exists, overwrite it with the 
template 


Global Options 








--logfile=FILE log file. if omitted stderr will be used 
--loglevel-LEVEL, -L LEVEL 
log level (default: DEBUG) { 





图 5-11 scrapy genspider 命令 帮助 


因此 ， 刚 才 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMovieSpider 
的 爬虫 脚本 。 这 个 脚本 搜索 的 域 为 mtime.com。 
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5.3.2 Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 了 ， 如 图 5-10 所 示 ， 下 面 来 看 看 各 个 文件 的 作用 。 首 
先 最 顶层 的 那个 todayMovie 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 

在 第 二 层 中 是 一 个 与 项 目 同名 的 文件 夹 todayMovie 和 一 个 文件 scrapy.cfg， 这 里 与 项 目 
同名 的 文件 夹 todayMovie 是 模块 〈 也 可 以 叫做 包 的 ) ， 所 有 的 项 目 代 码 都 在 这 个 模块 (文件 
KRAE) 内 添加 。 而 scrapy.cfg 文件 ， 顾 名 思 义 它 是 整个 Scrapy 项 目的 配置 文件 。 来 看 
看 这 个 文件 里 有 些 什 么 。Scrapy.cfg 文件 内 容 如 下 : 

# Automatically created by: scrapy startproject 
* 


# For more information about the [deploy] section see: 


# http://doc.scrapy.org/en/latest/topics/scrapyd.html 


1 
2 
3 
4 
5 
6 [settings] 

7 default = todayMovie.settings 
8 

9 [deploy] 

10 furl = http://localhost: 6800/ 
11 project = todayMovie 


除去 以 “#” 为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 : 一 是 定义 默认 设置 文件 的 位 置 
为 todayMovie 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMovie。 

在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 (实际 上 这 也 是 个 模块 )。 看 起 来 很 多 。 实 际 上 有 
用 的 也 就 3 个 文件 ， 分 别 是 items.py、pipelines.py、settings.py。 其 他 的 3 个 文件 中 ， 以 pyc 
结尾 的 是 同名 Python 程序 编译 得 到 的 字 节 码 文件 ，settings.pyc 是 settings.py 的 字 节 码 文件 ， 
. init .pyc JE init .py 的 字 节 码 文 件 。 据 说 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。 至 于 
. init py 文件 ， 它 是 个 空 文件 ， 里 面 什么 都 没有 。 在 此 处 唯一 的 作用 就 是 将 它 的 上 级 目录 
变 成 了 一 个 模块 。 也 就 是 说 第 二 层 的 todayMovie 模块 下 ， 如 果 没 有 _ init_.py 文件 。 那么 
todayMovie 就 只 是 一 个 单纯 的 文件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_.py 文件 ， 就 
会 将 该 文件 夹 编程 模块 化 ， 可 以 供 Python 导入 使 用 。 

有 用 的 这 3 个 文件 中 。settings.py 是 上 层 目录 中 scrapy.cfg 定义 的 设置 文件 。settings.py 
的 内 容 如 下 : 


# -*- coding: utf-8 -*- 


at 
2 
3 4 Scrapy settings for todayMovie project 
4d 
5 # For simplicity, this file contains only settings considered important 
or 

6 # commonly used. You can find more settings consulting the 


documentation: 
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https://doc.scrapy.org/en/latest/topics/settings.html 


Rodeo Sete 


10 https://doc.scrapy.org/en/latest/topics/spider-middleware.html 
11 

12 BOT_NAME = 'todayMovie' 

13 


14 SPIDER MODULES = ['todayMovie.spiders'] 
15 NEWSPIDER MODULE - 'todayMovie.spiders' 
16 
17 


https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 


18 # Crawl responsibly by identifying yourself (and your website) on the 


user-agent 
19 #USER_AGENT = 'todayMovie (+http://www. yourdomain.com) ' 
20 
21 # Obey robots.txt rules 
22 ROBOTSTXT_OBEY = True 


items.py CCF AE AA J& sg SURE RiR ip SEH TIL, items.py 的 内 容 如 下 : 


1# =*= coding; utf-8 -*- 


rs 

3 # Define here the models for your scraped items 
4d 

5 4 See documentation in: 

6 # http://doc.scrapy.org/en/latest/topics/items.html 
1 

8 import scrapy 

9 

10 

11 class TodaymovieItem(scrapy.Item) : 

12 * define the fields for your item here like: 
13 # name = scrapy.Field() 

14 pass 


pipelines.py 文件 的 作用 是 扫尾 。Scrapy JEJER f Fed utr pg AUS, HEA REA AE 


就 取决 于 pipelines.py 如 何 设置 了 。pipeliens.py 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 


# Define your item pipelines here 

+ 

# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


YA OB WNHeH 
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8 
9 class TodaymoviePipeline (object): 
10 def process item(self, item, spider): 


11 return item 


第 三 层 中 还 有 一 个 spiders 的 文件 夹 。 仔 细 看 一 下 ， 在 该 目录 下 也 有 个 _init_.py 文件 ， 
说 明 这 个 文件 夹 也 是 一 个 模块 。 在 该 模块 下 是 本 项 目 中 所 有 的 爬虫 文件 。 

第 三 层 中 有 3 个 文件 ，_init_ .py、__init_.pyc、wuHanMovieSpiderpy。 前 两 个 文件 刚 
才 已 经 介绍 过 了 ， 基 本 不 起 作用 。wuHanMovieSpiderpy 文件 是 刚才 用 scrapy genspider 命令 
EER fF. wuHanMovieSpider.py 文件 内 容 如 下 : 

I g =*= coding: utf- =*= 


2 import scrapy 


3 

4 

5 class WuhanmoviespiderSpider (scrapy.Spider) : 
6 name = "wuHanMovieSpider" 

yi allowed_domains = ["mtime.com"] 
8 start_urls = ( 

9 'http://www.mtime.com/', 

10 ) 

an 

12 def parse (self, response): 

T3 pass 


TEAWKIE di Hor, WEER BUSI 4 个 文件 ， 它 们 分 别 是 items.py、 
settings.py ~ pipelines.py 、 wuHanMovieSpiderpy 。 其 中 items.py 决定 疏 取 哪些 项 目 ， 
wuHanMovieSpiderpy WEA JE, settings.py 决定 由 谁 去 处 理 爬 取 的 内 容 ，pipelines.py 决定 
疏 取 后 的 内 容 怎样 处 理 。 


5.3.3 Scrapy WERS 

My first scrapy crawl 怎么 简单 ， 怎 么 清楚 就 怎么 来 。 这 个 候 虫 只 扑 取 当日 电影 名 字 ， 那 
我 们 只 需要 在 网 页 中 采集 这 一 项 即 可 。 

1. 选择 肥 取 的 项 目 items.py 

修改 items.py 文件 如 下 : 


1 4 -*- coding: untf-8 -*- 


2 

3 # Define here the models for your scraped items 

4d 

5 # See documentation in: 

6 # http://doc.scrapy.org/en/latest/topics/items.html 
ij 
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8 import scrapy 


9 

10 

11 class TodaymovieItem(scrapy.Item): 

12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 #pass 


15 movieTitleCn = scrapy.Field() # 影 片 中 文 名 
16 movieTitleEn = scrapy.Field() # 影 片 英文 名 
17 director = scrapy.Field() #338 

18 runtime = scrapy.Field() # 电 影 时 长 








由 于 Python 中 严格 的 格式 检查 。Python 中 最 常见 的 异常 IndentationError 会 经 常 出 现 。 如 
果 使 用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 vi 的 全 局 配置 文件 /etc/vim/vimrc， 将 所 有 
的 4 个 空格 变 成 tab。 











与 最 初 的 items.py 比较 一 下 ， 修 改 后 的 文件 只 是 按照 原文 的 提示 添加 了 需要 扑 取 的 项 
目 ， 然 后 将 类 结尾 的 pass 去 掉 了 。 这 个 类 是 继承 与 Scrapy 的 Iteam 类 ， 它 没有 重 载 Python 
类 的 _init_ 的 解析 函数 ， 没 有 定义 新 的 类 函数 ， 只 定义 了 类 成 员 。 


2 . 定义 怎样 他 取 wuHanMovieSpider.py 
修改 spiders/wuHanMovieSpider.py， 内 容 如 下 : 


Tug =*= coding: Et=8 =*= 

2 import scrapy 
from todayMovie.items import TodaymovieItem 
import re 


name = "wuHanMovieSpider" 
allowed domains - ["mtime.com"] 
1 start urls = [ 
1 
'http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/', 


12 ] # 这 个 是 武汉 汉 街 万 达 影 院 的 主页 


3 
4 
5 
6 
7 class WuhanmoviespiderSpider (scrapy.Spider): 
8 
9 
0 
1 


13 
14 
15 def parse(self, response): 
16 selector = 
response. xpath ('/html/body/script [3]/text()') [0] . extract () 
17 moviesStr = re.search('"movies":\[.*?\]', selector) .group() 
18 moviesList = re.findall('(.*?)', moviesStr) 
19 items = [] 
20 for movie in moviesList: 
21 mDic = eval (movie) 
22 item = TodaymovieItem() 
23 item['movieTitleCn'] = mDic.get('movieTitleCn') 
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24 item['movieTitleEn'] = mDic.get('movieTitleEn') 


25 item['director'] = mDic.get('director') 
26 item['runtime'] = mDic.get('runtime') 
zu items.append (item) 

28 return items 


在 这 个 python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 CE) todayMovie 中 的 
items 文件 中 导入 了 Todaymovieltem 类 ， 也 就 是 刚才 定义 需要 怜 行内 容 的 那个 类 。 
WuhanmovieSpider 是 一 个 自 定义 的 仆 虫 类 ， 它 是 由 scrapy genspider 命令 自动 生成 的 。 这 个 自 
定义 类 继承 于 scrapy.Spider 类 。 第 8 行 的 name 5E XLI J& 8:8 44. 55 9 行 的 allowed domains 
定义 的 是 域 范围 ， 也 就 是 说 该 朴 虫 只 能 在 这 个 域内 疏 行 。 第 11 行 的 start urls 定义 的 是 疏 行 
的 网 页 ， 这 个 疏 虫 只 需要 疏 行 一 个 网 页 ， 所 以 在 这 里 start urls 可 以 是 一 个 元 组 类 型 。 如 果 需 
要 疏 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 疏 行 的 网 页 。 

(BASH fff) parse 函数 需要 参数 response， 这 个 response 就 是 请 求 网 页 后 返回 的 数据 。 至 
于 怎么 从 response 中 选取 所 需 的 内 容 ， 笔 者 一 般 采 取 两 种 方法 ， 一 是 直接 在 网 页 上 查看 网 页 
源 代码 ， 二 是 自己 写 个 Python 3 程序 使 用 urllib.request 将 网 页 返回 的 内 容 写 入 到 文本 文件 
中 ， 再 慢 慢 地 查询 。 

打开 Chrome 浏览 器 ， 在 地 址 栏 输入 怜 取 网 页 的 地 址 ， 打 开 网 页 ， 如 图 5-12 所 示 。 
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同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 即 使 略 有 不 同 ， 也 可 以 通过 增加 挑选 条 
件 将 所 需 的 数据 全 部 放 入 选择 器 。 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 选择 “查看 网 页 源 代 
码 ”， 如 图 5-13 所 示 。 
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结果 如 
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图 5-13 查看 网 页 源 代码 
打开 源 代码 网 页 ， 按 Ctrl+F 组 合 键 ， 在 查找 框 中 输入 “ 寻 梦 环 游记 ”后 按 回 车 键 ， 


5-14 所 示 。 
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查找 


整个 源 代码 网 页 只 有 一 个 查询 结果 ， 那 就 是 它 了 。 而 且 很 幸运 的 是 ， 所 有 的 电影 信息 都 
在 一 起 ， 是 以 json 格式 返回 的 。 这 种 格式 可 以 很 容易 地 转换 成 字典 格式 获取 数据 〈 也 可 以 直 
接 json 模块 获取 数据 ) 。 
仔细 看 看 怎样 才能 得 到 这 个 “字典 ” (json 格式 的 字符 串 ) We? 如 果 谋 套 的 标签 比较 多 ， 可 
以 用 XPath 嵌 套 搜索 的 方式 来 逐步 定位 。 这 个 页 面 的 源码 不 算 复杂 ， 直 接 定 位 Tag 标签 后 一 
个 一 个 的 数 标签 就 可 以 了 。Json 字符 串 包含 在 script 标签 内 ， 数 一 下 script 标签 的 位 置 ， 在 脚 
本 中 执行 语句 : 

16 selector = response.xpath('/html/body/script[3]/text()')[0].extract( ) 

意思 是 选择 页 面 代码 中 html 标签 下 的 body 标签 下 的 第 4 个 script 标签 。 然 后 获取 这 个 
标签 的 所 有 文本 ， 并 释放 出 来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任 
意 一 级 目录 下 ， 执 行 命令 : 

scrapy shell 
http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/ 


执行 结果 如 图 5-15 所 示 。 


lare ^ 
2017-11-28 12:26:51+0800 [scrapy] INFO: Enabled item pipelines: TodaymoviePipeli 
Ine 

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[wuHanMovieSpider] INFO: Spider opened 
[wuHanMovieSpider] DEBUG: Crawled (200) «GET http://the 
later.mtime. com/China | Hubei Province Wuhan Wuchang/4316/» (referer: None) 
[s] Available Scrapy objects: 
[s] crawler  <scrapy.crawler.Crawler object at Ox7faSee8f7d10» 
item ü 
request © «GET http://theater.mtime.com/China Hubei Province Wuhan Wuchan 





4200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan| 











settings <scrapy.settings.Settings object at Ox7fabefzecaS0> 
spider <WuhanmoviespiderSpider 'wuHanMovieSpider' at Ox7fa&eda85610» 
Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 





图 5-15 scrapy shell 


response 后 面 的 200 是 网 页 返回 代码 ，200 代表 获取 数据 正常 返回 ， 如 果 出 现 其 他 的 数 
字 ， 那 就 得 仔细 检查 代码 了 。 现 在 可 以 放心 地 验证 了 ， 执 行 命令 : 


selector = response.xpath('/html/body/script[3]/text() ') [0] . extract () 
print (selector) 


了 结果 如 图 5-16 所 示 。 
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BB king@debian8: ~/code/scrapy/todayMovie/todayMovie 
response <200 http://theater.mtime.con/i lubei Province Wuhan Wuchan ^ 
g/4316/» 
[s] settings <scrapy.settings.Settings object at 0x7£216be66668> 
[s] spider <WuhanmoviespiderSpider 'wuHanmovieSpider' at 0x7f216b9d7e48» 
[s] Useful shortcuts: 
[s]  fetch(url[, redirect-True]) Fetch URL and update local objects (by default 
, redirects are followed) 
[s] fetch(req) Fetch a scrapy.Request and update local object 


shelp() Shell help (print this help) 


elector = response.xpa' extract () 





wesScriptVariables = ("cinemaId":4316,"namecn":" A LXX i 

address":" 武 汉 市 武昌 区 水 果 湖 楚 河 汉 街 1 号 万 达 广 场 五 层 ","cityid":561," 

87713677", "longitude":114.3512,"1atidude":30.55128,"rating":7.777 

827,"roadline":"Je Me Hi. 19K. 5370. 5810. 5830. 64 i Ci Wb BPI", "movieco 

"showtimeCount":74, "currentDate": "2018-01-29", "today": "2018-01-29", "value 

jateUr1":"http://theater. 

i: 129"), ("date":new Date 

("February, 2 2018 00 ://th .mtime.com/China Hubei Pr 
ovince Wuhan Wuchang/4316/2d-20180202"], ("date":new Date("February, 14 2018 00:0 v 


图 5-16 验证 选择 器 


看 来 选择 器 的 选择 没 问 题 。 再 回头 看 看 wuHanMovieSpider.py 中 的 parse 函数 就 很 容易 理 
解 了 。 代 码 第 17、18 行 先 用 re 模块 将 json 字符 串 从 选择 器 的 结果 中 过 滤 出 来 。 第 19 行 定义 
了 一 个 items 的 空 列表 ， 这 里 定义 items 的 列表 是 因为 返回 的 item. 不 止 一 个 ， 所 以 只 能 让 
item 以 列表 的 形式 返回 。 第 22 íF item 初始 化 为 一 个 Todaymoizeltem() 的 类 ， 这 个 类 是 从 
todayMovie.items 中 初始 化 过 来 的 。 第 21 行将 json 字符 串 转换 成 了 一 个 Python 字典 格式 。 第 
23-26 行将 已 经 初始 化 类 item 中 的 movieName 项 赋值 。 第 27 行将 item 追加 到 items 列表 中 
去 。 最 后 return items， 注 意 这 里 返回 的 是 items， 不 是 item。 


3 . 保存 肛 取 的 结果 pipelines.py 


修改 pipelines.py， 内 容 如 下 : 
1 # -*- coding: utf-8 -*- 





2 
3 # Define your item pipelines here 

4# 

5 # Don't forget to add your pipeline to the ITEM_PIPELINES setting 
6 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 
i 
8 


import codecs 
9 import time 


10 

11 class TodaymoviePipeline (object): 

12 def process_item(self, item, spider): 

13 today = time.strftime('$Y-$m-$d', time.localtime()) 
14 fileName = ' 武 汉 汉 街 万 达 广 场 店 ' + today + '.txt' 

15 with codecs.open(fileName, 'a+', 'utf-8') as fp: 
16 fp.write('$s $s %s $s \r\n' 


17 $(item['movieTitleCn'], 
18 item['movieTitleEn'], 
19 item['director'], 


162 


20 item['runtime'])) 

21 # return item 

这 个 脚本 没什么 可 说 的 ， 比 较 简 单 。 就 是 把 当日 的 年 月 日 抽取 出 来 当成 文件 名 的 一 部 
分 。 然 后 把 wuHanMovieSpider.py 中 获取 项 的 内 容 输 入 到 该 文件 中 。 这 个 脚本 中 只 需要 注意 
两 点 。 第 一 ，open 函数 创建 文件 时 必须 是 以 追加 的 形式 创建 ， 也 就 是 说 open 函数 的 第 二 个 
参数 必须 是 a， 也 就 是 文件 写 入 的 追加 模式 append。。 因 为 wuHanMovieSpider.py 返回 的 是 
一 个 item 列表 items， 这 里 的 写 入 文件 只 能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参 
数 是 写 入 模式 write， 造 成 的 后 果 就 是 先 控 除 前 面 写 入 的 内 容 ， 再 写 入 新 内 容 ， 一 直 循环 到 
items 列表 结束 ， 最 终 的 结果 就 是 文件 里 只 保存 了 最 后 一 个 item 的 内 容 。 第 二 是 保存 文件 中 
的 内 容 如 果 含 有 汉字 就 必须 转换 成 utf8 码 。 汉 字 的 unicode 码 保存 到 文件 中 正常 人 类 都 是 无 
法 识别 的 ， 所 以 还 是 转换 成 正常 人 类 能 识别 的 utfg 吧 。 

到 了 这 一 步 ， 这 个 Scrapy 疏 虫 基本 上 完成 了 。 回 到 scrapy.cfg 文件 的 同 级 目录 下 《实际 
上 只 要 是 在 todayMovie 项 目下 的 任意 目录 中 执行 都 行 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 
美观 而 已 ) ， 执 行 命令 : 

scrapy crawl wuHanMovieSpider 

结果 却 什么 都 没有 ? 为 什么 呢 ? 

4 . 分 派 任务 的 settings.py 

先 看 看 settings.py 的 初始 代码 。 它 仅 指定 了 Spider MARNIE. HATS RIN Spider E 
虫 的 开头 ， 它 导入 了 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy CAME SMBH A, E 
FEIER, Wü pipelines 说 明了 最 终 的 爬 取 结 果 怎 样 处 理 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 
个 疏 行 结果 ， 这 时 候 就 该 setting.py 出 点 力气 了 。setting.py 的 最 终 代 码 如 下 : 


1 ł -*- coding: utf-8 -*- 














2 

3 # Scrapy settings for todayMovie project 

4# 

5 # For simplicity, this file contains only the most important settings 
by 

6 # default. All the other settings are documented here: 

7# 

8 4 http://doc.scrapy.org/en/latest/topics/settings.html 

9 £4 

10 

11 BOT NAME = 'todayMovie' 

12 

13 SPIDER MODULES - ['todayMovie.spiders'] 

14 NEWSPIDER MODULE = 'todayMovie.spiders' 

15 


16 # Crawl responsibly by identifying yourself (and your website) on the 
user-a gent 
17 #USER AGENT = 'todayMovie (*http://www.yourdomain.com)' 
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这 ### user define 

20 ITEM PIPELINES = ('todayMovie.pipelines.TodaymoviePipeline':300] 

这 跟 初始 的 settings.py 相 比 ， 就 是 在 最 后 添加 了 一 行 ITEM PIPELINES. "if Scrapy 
最 终 的 结果 是 由 todayMovie 模块 中 pipelines 模块 的 TodaymoviePipeline 类 来 处 理 。 
ITEM PIPELINES 是 一 个 字典 ， 字 典 的 key 用 来 处 理 结果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问 题 。 如 果 需 要 多 种 处 理 结果 的 方法 ， 那 
就 要 确立 顺序 了 。 数 字 越 小 的 越 先 被 执行 。 

现在 可 以 测试 这 个 Scrapy EHT, PUTAS: 


scrapy crawl wuHanMovieSpider 











'scheduler/enqueued': 1, 
'scheduler/enqueued/memory': 1, 

‘start_time’: datetime.datetime(2017, 11, 28, 4, 51, 19, 969087)} 
[2017-11-28 12:51:20+0800 [wuHanMovieSpider] INFO: Spider closed (finished) 
/code/crawler/scrapyProject/todayMovie$ 1s 
iodaytovie. PRED 二 
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图 5-17. Scrapy EHAR 


A, RARA MGA AAT GH, Scrapy Jd REMEE 
路 照章 填空 就 可 以 了 。 如 果 需 要 的 项 比较 多 ， 获 取 内 容 的 网 页 源 比较 复杂 或 者 不 规范 ， 可 能 
会 稍微 麻烦 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的 。 与 前 章 的 re 爬虫 相 比 ， 越 复杂 的 怜 虫 就 
越 能 体现 Scrapy 的 优势 。 


5.4 Scrapy MCB : 天 气 预报 


上 节 使 用 Scrapy HTAR fT RE rh. AAA LEE, HS Pris UH. e — nid 
MER, FRAME HDA ALL AS APTN RAE ROR. BATRA EAR HER ITI 。 
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54.41 项 目 准 备 


首先 要 做 的 是 确定 网 络 天 气 数据 的 来 源 。 打 开 百度 ， 搜 索 “ 网 络 天 气 预报 ”， 搜 索 结果 
如 图 5-18 所 示 。 





LI 
Bailie BARR 百度 一 下 


pui 新 闻 eE 知道 音乐 图 片 视频 地 图 文库 me 


ASHER ios 95 搜索 工具 
中 国 天 气 网 -专业 天 气 预报 、 气 象 服务 门户 


中 国 天 气 网 官方 权威 发 布 天 气 预 报 , 逐 三 小 时 天 气 预报 ,提供 天 气 预报 
查询 一 周 天 气 预 报 15 天 查询 ,天 气 额 报 40 天 查询 ,空气 质量 ,生活 指数 
旅游 出 行 ,交通 天 气 等 查 词 服务 

wwwweather com_cn/ ~ - EERS - 161 条 评价 


天 气 预 报 -中 国 天 气 网 
D 中 国 天 气 网 为 您 提供 实时 全 国 天 气 气象 信息 ,及 时 发 布 天 气 预 报 、 灾 圳 
预报 "€ SRZD RIET AR RASS TARA REDI 
生活 提供 全 面 精 确 的 气象 服务 
Www weather com .cmfor ~ - 百度 快照 - 161 杀 评价 





x 询 一 i 今天 


去 天气 网 (www'tianqi com) 女 提供 全 国 及 世界 各 大 城市 天 气 预 报 查 询 
£ = 以 及 历史 天 气 查 询 ,实时 更 新 天 气 ,准确 提供 天 气 预 报 一 周 查询 及 未 来 
c Em 天 气 预报 10 天 、15 天 、 一 个 月 查询 . 


wwwtianqi comy ~ - EIZIE - 10238 i 








5-18 ”百度 搜索 数据 来 源 站 点 


有 很 多 网 站 可 以 选择 ， 任 意 选 择 一 个 都 可 以 。 这 里 笔者 选择 的 是 
http://wuhan.tianqi.com/。 在 浏览 器 中 打开 该 网 站 ， 并 找到 所 属 的 城市 ， 将 会 出 现 当地 一 周 的 
天 气 预 报 ， 如 图 5-19 所 示 。 


武 妈 天 气 预报 武汉 生活 指数 武汉 历史 天 气 趟 空气 所 里 


武汉 今天 天 气 武汉 当前 温度 风向 风力 mes: 43 
m" Resta: 适宜 
2531.6? AU: EGER 
E 3] PETI 
7 " 
多 云 相对 湿度 : 44% 东北 网 8 cns 
东北 风 OR 2 人 时 天 气 预报 mms FEHR || Re HAD 
湖北 武汉 天 气 预报 一 周 武汉 10 天 天 气 RRAN 。 武汉 30 天 天 气 
武汉 今日 天 气 武汉 明日 天 气 武汉 后 天 天 气 武 冯 % 日 天 气 武 &or 日 天 气 武汉 6 日 天 气 
星期 zua zu- 星期 二 suz 星期 四 
39'C?2'C arcc acze awc acae 3c 
Bz sz sz m sz 


n 
东北 风 2i. 无 持续 网 向 微风 。 无 持续 风向 微风 。 无 持续 风向 微风 。 无 持续 风向 微风 。 无 持续 风向 微风 
图 5-19 本 地 一 周 天 气 


在 这 里 ， 包 含 的 信息 有 城市 日 期 、 星 期 、 天 气 图 标 、 温 度 、 天 气 状 况 以 及 风向 。 除 了 天 
气 图 标 是 以 图 片 的 形式 显示 ， 其 他 的 几 项 都 是 字符 串 。 本 节 Scrapy JE diff FL Eire PUB EG 
有 用 信息 。 至 此 ，items.py 文件 已 经 呼之欲出 了 。 
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5.4.2 ”创建 编辑 Scrapy IE 

首先 还 是 打开 Putty, HERES Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 
spider 基础 模版 创建 一 个 spider。 执 行 命令 : 

cd 


cd code/scrapy 
scrapy startproject weather 


cd weather 
scrapy genspider wuHanSpider wuhan.tiangi.com 


执行 结果 如 图 5-20 所 示 。 


f king@debian8: ~/code/scrapy/weather 


king@debian8:~$ cd 

king@debian8:~$ cd code/scrapy 

king&debianB:-/code/scrapyS scrapy startproject weather 

New Scrapy project 'weather', using template directory '/home/king/anaconda3/lib 

/python3.6/site-packages/scrapy/templates/project', created in: 
/hone/king/code/scrapy/weather 


You can start your first spider with: 


cd weather 
scrapy genspider example example.com 


king@debian8:~/code/scrapy$ cd weather/ 
king&debian8:-/code/scrapy/weather$ scrapy genspider wuHanSpider tiangi.com 


Created spider 'wuHanSpider' using template 'basic' in modu 
weather.spiders.wuHanSpider 
kingüdebian8:-/code/scrapy/weathers Bj 





图 5-20 创建 Scrapy Ji H 
项 目 模版 创建 完毕 ， 项 目 文件 如 图 5-21 所 示 。 


SP king@debian’: ~/code/scrapy/weather 

king@debian8:~/code/scrapy$ cd weather/ 

king@debian8:~/code/scrapy/weather$ scrapy genspider wuHanSpider tiangqi.com 

Created spider 'wuHanSpider' using template 'basic' in module: 
weather.spiders.wuHanSpider 


king@debian8:~/code/scrapy/weather$ tree ./ 


middlewares.py 
FF pipelines.py 


pycache — 
[— | init .cpython-36.pyc 


L— settings.cpython-36.pyc 
settings.py 


|l— init .py 


l— _pycache__ 
L— init .cpython-36.pyc 


L— wuBanSpider.py 





4 directories, 11 files 
king@debian8:~/code/scrapy/weather$ M 


521 ”基础 项 目 模版 








1 . 修改 items.py 
按照 上 一 节 中 的 顺序 ， 第 一 个 要 修改 的 还 是 items.py。 修 改 后 的 items.py 代码 如 下 : 


1 # -*- coding: utf-8 -*- 
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# Define here the models for your scraped items 
+ 


# http://doc.scrapy.org/en/latest/topics/items.html 


2 
3 
4 
5 # See documentation in: 
6 
7 
8 


import scrapy 


9 

10 

11 class WeatherItem(scrapy.Item) : 

12 # define the fields for your item here like: 


13 # name = scrapy.Field() 

14 cityDate = scrapy.Field() # 城 市 及 日 期 
15 week = scrapy.Field() # 星 期 

16 img = scrapy.Field() # 图 片 

17. temperature = scrapy.Field() # 温 度 
18 weather = scrapy.Field() # 天 气 

19 wind = scrapy.Field() #MH 


在 items.py 文件 中 ， 只 需要 将 希望 获取 的 项 名 称 按照 文件 中 示例 的 格式 填 入 进去 即 可 。 
唯一 需要 注意 的 就 是 每 一 行 最 前 面 的 到 底 是 空格 还 是 Tabstop。 这 个 文件 可 以 说 是 Scrapy ME 


虫 中 最 没有 技术 含量 的 一 个 文件 了 。 填 空 ， 就 是 填空 而 已 。 
2 . 修改 Spider 文件 wuHanSpiderpy 


按照 上 一 节 的 顺序 ， 第 二 个 修改 的 文件 应 该 轮 到 spiders/wuHanSpiderpy 了 。 和 暂时 先 不 要 


修改 文件 ， 使 用 scrapy shell 命令 来 测试 、 获 取 选 择 器 。 执 行 命令 : 


scrapy shell https://www.tianqi.com/wuhan/ 


执行 结果 如 图 5-22 所 示 。 





2 


n 127.0.0.1:6023 
2018-01-30 16: 
2018-01-30 16: 
ianqí.com/robots 
2018-01-30 16:11: 
angi .com/wuhan/ 
[2018-01-30 16 8 [traitlets] DEBUG: Using default logger 
2018-01-30 16:11:38 [traitlets] DEBUG: Using default logger 
[s] Available Scrapy objects: 









:32 [scrapy.core.engine] INFO: Spider opened 








xt» (referer: None) 


(referer: None) 














[s] Useful shortcuts: 





, redirects are followed) 

[s] fetch(req) Fetch a scrapy.Request and update 
|[s]  sheipO Shell help (print this help) 

1 w (response) View response in a browser 








[s] spider <WuhanspiderSpider 'wuHanSpider' at Ox7f91dd25cb00» 


3 [scrapy.core.engine] DEBUG: Crawled (200) «GET https://www.t 


33 [scrapy.core.engine] DEBUG: Crawled (200) «GET https://www.t 


[s]  scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc) 
[s] crawler  <scrapy.crawler.Crawler object at 0x7f91dd6e4208» 

[s] item ü 

[s] request ^ «GET https://www.tiangi.com/wuhan/» 

[s] [response «200 https://www.tiangi.com/wuhan/» 

[s] settings  «scrapy.settings.Settings object at Ox7f91dd6e40b8» 


[s]  fetch(url[, redirect-True]) Fetch URL and update local objects (by default 


local object 








5-22 scrapy shell 


从 上 图 可 看 出 response 的 返回 代码 为 200， 是 正常 返回 ， 已 成 功 获取 该 网 页 的 response. 
下 面 开始 试验 选择 器 了 。 打 开 Chrome 浏览 器 〈 任 意 一 个 浏览 器 都 可 以 ， 哪 个 方便 用 哪 


个 ) ， 在 地 址 栏 输入 https:/www.tianqi.com/wuhan/， 按 Enter 键 打开 网 页 。 在 任意 空白 


击 ， 选 择 “ 查 看 网 页 源 代码 ”， 如 图 5-23 所 示 。 





处 右 
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图 5-23 查看 源 代码 


在 框架 源 代码 页 ， 使 用 Culef 组 合 键 查找 关键 词 “ 武 汉 天 气 预报 一 周 ”， 


果 ， 但 也 能 很 容易 就 找到 所 需 数据 的 位 置 ， 如 图 5-24 所 示 。 
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图 5-24 查找 所 需 数据 位 置 


虽然 有 S 个 结 


仔细 观察 了 一 下 ， 似 乎 所 有 的 数据 都 是 在 <div class="day7"> 这 个 标签 下 的 ， 试 下 查找 页 


面 还 有 没有 其 他 的 <div class="day7"> 的 标签 〈 这 种 可 能 性 已 经 很 小 了 ) 。 如 果 没 有 就 将 <div 
class="day7"> 作 为 XPath 的 锚 点 ， 如 图 5-25 所 示 。 
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selectorl 
selectorl 


执行 结果 如 图 
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525 ”测试 锚 点 


从 页 面 上 来 看 ， 每 天 的 数据 并 不 是 存在 一 起 的 。 而 是 用 类 似 表格 的 方式 ， 按 照 列 的 方式 
来 存储 的 。 不 过 没关系 ， 可 以 先 将 数据 抓 取 出 来 再 处 理 。 先 以 错 点 为 参照 点 ， 将 日 期 和 星期 
抓 取出 来 。 回 到 Putty 下 的 scrapy shell 中 ， 执 行 命令 : 


selector = response.xpath('//div[@class="day7"]') 


selector.xpath('ul[G8class-"week"]/li') 


5-26 所 示 。 


B® king@debian8: ~/code/scrapy/weather/weather 


lout 





selector = response.xpath(' 





div 








selector 


[<Selector xpath='//div(@class="day7"]* data="<div class="day7">\r\n\t\ 


class-"week"'»] 





[selectorl = selector.xpath('u 











selectorl 


[Selector xpath='ul (@class="week"]/1i" 
lpan><img sr'>, 
«Selector xpath-'ul[éclass-"week"]/1i' 
pan»«img sr'>, 
«Selector xpath='ul(@class="week"]/1i* 
pan»«img sr'>, 
«Selector xpath-'ul[8class-"week"]/1i' 
pan»«img sr'>, 
«Selector xpath-'ul[8class-"week"]/1i' 
lpan><img sr'>, 
«Selector xpath='ul[@class="week"] /1i* 
pan><img sr'>, 
«Selector xpath-'ul[éclass-"week"]/1i* 
pan><img sr'>] 





T isi 


datae'«1i»cb»01H 30H «/b»«span» JI = «/s 
data-'«1i»«b201)] 31H «/b»«span»l M=</s 
data='<1i><b>02} 01H «/b»«span» M I </s 
data='<li><b>02 月 02 日 </b><span> 星 期 五 </s 
datam'<li><b>02 月 03 日 </b><span> 星 期 六 </s 
datae'«1i»«b»02H 04H «/b»«span»l JE H </s 


data='<1i><b>02} 05H «/b»«span»c WI — «/s 





5-26 ”确定 XPath 锚 点 
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然后 从 selector! 中 提取 有 效 数 据 ， 如 图 5-27 所 示 。 


king@debian8: ~/code/scrapy/weather/weather 





pan»«img sr'», 
Selector xpath-'ul[éclass-"week"]/1i" dat: ><b>01 月 31 日 </b><span> 星 期 三 </ 
lpan><img sr'>, 
<Selector xpath= mii ><b>02 月 01 日 </b><span> 星 期 四 </s 
pan><img sr'», 
«Selector xpath='ul [@class="week"]/li' »«b»02H 02H </b><span># W Fi </s 
pan><img sr'>, 
«Selector xpath='ul[@class="week"}/li' ><b>02} 03H </b><span> W X </s 
pan><img sr'>, 
«Selector xpath-'ul[8class-"week"]/li" ><b>02} 04H </b><span>M WE H «/s 
pan><img sr'», 
«Selector xpath-'ul[8class-"week"]/li* 1i»«b»02H 05H «/b»«span»A M—</s 
pan><img sr'»] 





selectorl[0].xpath('b/text () ') .extract() 
1'01A 30H *] 


selectorl[0].xpath('spa t () *) .extract () 


【' 星 期 二 '] 


selectorl[0].xpath('ing *) -extract () 
['http://pic9.tiangijun.com/static/wap2018/icol/bl.png'] 











527 XPath 选择 器 获取 数据 


图 5-27 已 经 将 日 期 、 星 期 和 图 片 挑选 出 来 了 ， 其 他 所 需 的 数据 可 以 按照 相同 的 方法 一 一 
挑选 出 来 。 过 滤 数 据 的 方法 既然 已 经 有 了 ，Scrapy 项 目 中 的 爬虫 文件 wuHanSpiderpy 也 基本 
明朗 了 。wuHanSpider.py 的 代码 如 下 : 


1 # -*- coding: utf-8 -*- 


2 import scrapy 


3 from weather.items import WeatherItem 


class WuhanspiderSpider (scrapy.Spider) : 
name = 'wuHanSpider' 
allowed domains = ['tiangi.com'] 
citys = ['wuhan', 'shanghai'] 
start urls - [] 
for city in citys: 


start urls.append('https://www.tiangi.com/' + city) 


def parse(self, response): 


items- [] 

city = response.xpath('//dd[8class-"name"]/h2/text() ').extract() 
Selector = response.xpath('//div[@class="day7"]") 

date = Selector.xpath('ul[@class="week"]/1i/b/text()') .extract () 
week = Selector. xpath ('ul[@class="week"] /1i/span/text () ') .extract () 
wind = Selector.xpath('ul[8class-"txt"]/li/text()').extract() 
weather = Selector.xpath('ul[@class="txt txt2"]/li/text()').extract() 
temperaturel = 


Selector.xpath('div[G8class-"zxt shuju"]/ul/li/span/text()').extract() 


23 


temperature2 = 


Selector.xpath('div[Gclass-"zxt shuju"]/ul/li/b/text()').extract() 


24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
B5 


for i in range(7): 

item = WeatherItem() 

try: 
item['cityDate'] = city[0] + date[i] 
item['week'] = week[i] 
item['wind'] = wind[i] 
item['temperature'] = temperaturel[i] + ',' + temperature2[i] 
item['weather'] = weather[i] 

except IndexError as e: 
sys.exit(-1) 

items.append(item) 


return items 


文件 开头 别 忘 了 导入 scrapy 模块 和 items 模块 。 在 第 8-11 行 中 ， 给 start. urls 列表 添加 了 
上 海天 气 的 网 页 。 如 果 还 想 添加 其 他 的 城市 天 气 ， 可 以 在 第 9 行 的 citys 列表 中 添加 城市 代码 。 

3 . 修改 pipelines.py， 处 理 Spider 的 结果 

这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


Oo PP 


NNNPPPRPP RPP PP hp 
NPOwV’ MB IDA UHGFPwW;NHEHEO 


# -*- coding: utf-8 -*- 
Define your item pipelines here 


+ 
+ 
# Don't forget to add your pipeline to the ITEM_PIPELINES setting 
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


import time 


import codecs 


class WeatherPipeline (object): 
def process item(self, item, spider): 
today = time.strftime('$Y$m$d', time.localtime()) 
fileName = today + '.txt' 
with codecs.open(fileName, 'a', 'utf-8') as fp: 
fp.write("$s Nt $s Nt $s Nt bs \t %s \r\n" 
$(item['cityDate'], 
item['week'], 
item['temperature'], 
item['weather'], 
item['wind'])) 


return item 
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第 1 行 ， 确 认 字符 编码 。 实 际 上 这 一 行 没 多 大 必要 ， 在 Python 3 中 默认 的 字符 编码 就 是 
utf-8。 第 8-9 行 ， 导 入 所 需 的 模块 。 第 13 (T. Hi time 模块 确定 了 当天 的 年 月 日 ， 并 将 其 作 
为 文件 名 。 后 面 则 是 一 个 很 简单 的 文件 写 入 。 


4 . 修改 settings.py， 决 定 由 哪个 文件 来 处 理 获取 的 数据 


Python 3 版 本 的 settings.py 比 Python 2 版 本 的 要 复杂 很 多 。 这 是 因为 Python 3 版 本 的 
settings.py 已 经 将 所 有 的 设置 项 都 写 进去 了 ， 和 暂时 用 不 上 的 都 当成 了 注释 。 所 以 这 里 只 需要 
找到 ITEM PIPELINES 这 一 行 ， 将 前 面 的 注释 去 掉 就 可 以 了 。Settings.py 这 个 文件 比较 大 ， 
这 里 只 列 出 了 有 效 的 设置 。settings.sp 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 


* Scrapy settings for weather project 

* 

* For simplicity, this file contains only the most important settings by 
# default. All the other settings are documented here: 

* 

+ http://doc.scrapy.org/en/latest/topics/settings.html 


© 0-100540 N H^ 


RR 
k o 


BOT_NAME = 'weather' 


RR 
wn 


SPIDER MODULES = ['weather.spiders'] 
NEWSPIDER MODULE = 'weather.spiders' 


PPR 
Oo 0 ^ 


# Crawl responsibly by identifying yourself (and your website) on the User-Agent 
#USER_AGENT = 'weather (*http://www.yourdomain.com)"' 


PRR 
wo 0 N 


#### user add 

ITEM_PIPELINES = { 
'weather.pipelines.WeatherPipeline':300, 
22M 


最 后 ， 回 到 weather 项 上 目下， 执行 命令 : 


scrapy crawl wuHanSpider 
ls 


more *.txt 


N N 
e o 





E 











得 到 的 结果 如 图 5-28 所 示 。 
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a king @debian8: ~/code/scrapy/weathe n 
"scheduler/dequeued': 2, ^ 
'scheduler/dequeued/memory': 2, 

"scheduler/enqueued': 2, 
"scheduler/enqueued/memory': 2, 
"start time': datetime.datetime(2018, 1, 30, 14, 40, 45, 551636)) 

2018-01-30 22:40:45 [scrapy.core.engine] INFO: Spider closed (finished) 

kingédebian8:-/code/scrapy/weatherS 1s 

20180130.txt scrapy.cfg weather 








king@debian8:~/code/scrapy/weather$ more *.txt 
武汉 01 月 308 星期 二 4,-7 多 云 北 风 

武汉 01 月 31 日 星期 三 6,-7 £z 北 风 

武汉 02 月 01 日 星期 四 7,-5 m" 东北 风 

武汉 02 月 02 日 星期 五 8,-4 a 北 风 

武汉 02 月 03 日 星期 六 7,-4 " 东北 风 

武汉 02 月 04 日 星期 日 7,-3 SZ 东风 

武汉 02 月 05 日 星期 一 7,-3 a 东风 

上 海 01 月 30 日 星期 二 4,-3 Li 西北 风 

上 海 01 月 31 日 星期 三 3,-1 a 西北 风 

上 海 02 月 01 日 星期 四 6,-1 " 北 风 

上 海 02 月 02 日 星期 五 6,0 多 云 西北 风 

上 海 02 月 03 日 星期 六 1,-2 m" 西北 风 

上 海 02 月 04 日 星期 日 1,-3 " 西北 风 

上 海 02 月 05 日 星期 一 3,-5 m" tR 
king@debian8:~/code/scrapy/weathers [] v 





图 5-28 保存 结果 为 txt 


至 此 ， 一 个 完整 的 Scrapy 扑 虫 已 经 完成 了 。 这 个 仆 取 天 气 的 仆 虫 比 上 一 个 候 取 电影 的 仆 
虫 稍微 复杂 一 点 ， 但 流程 基本 是 一 样 的， 都 是 做 填空 题 而 已 。 


5.4.3 ”数据 存储 到 json 

上 节 已 经 完成 了 一 个 Scrapy 候 虫 ， 并 将 其 息 取 的 结果 保存 到 了 txt 文件 。 但 ext 文件 的 优 
点 仅仅 是 方便 阅读 ， 而 程序 阅读 一 般 都 是 使 用 更 方便 的 json. cvs 等 等 格式 。 有 时 程序 员 更 加 
希望 将 仆 取 的 结果 保存 到 数据 库 中 便于 分 析 统 计 。 所 以 ， 本 节 将 继续 讲解 Scrapy MERIETE 
方式 ， 也 就 是 继续 对 pipelines.py 动手 术 。 

这 里 以 json 格式 为 例 ， 其 他 的 格式 都 大 同 小 异 ， 读 者 可 自行 摸索 测试 。 既 然 是 保存 为 
json 格式 ， 当 然 就 少不了 Python 的 json 模块 了 。 幸 运 的 是 json 模块 是 Python 的 标准 模块 ， 
无 须 安装 可 直接 使 用 。 

保存 爬 取 结 果 ， 那 必定 涉及 了 pipelines.py。 我 们 可 以 直接 修改 这 个 文件 ， 然 后 再 修改 一 
下 settings.py 中 的 ITEM_PIPELINES 项 即 可 。 但 是 仔细 看 看 settings.py 中 的 
ITEM_PIPELINES 项 ， 它 是 一 个 字典 。 字 典 是 可 以 添加 元 素 的 。 因 此 完全 可 以 自行 构造 一 个 
Python 文件 ， 然 后 把 这 个 文件 添加 到 ITEM_PIPELINES 不 就 可 以 了 吗 ? 这 个 思路 是 否 可 行 ， 
测试 一 下 就 知道 了 。 

为 了 “表明 身份 ”， 笔 者 给 这 个 新 创建 的 Python 文件 取 名 为 pipelines2json.py， 这 个 名 
字 简 单 明 了 ， 而 且 显 示 了 与 pipellines.py 的 关系 。pipelines2.json 的 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 
Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


Aon WN HB 
SE k aE oe 
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import time 


9 import codecs 


10 
ini 
12 
13 
14 
15 
16 
17 
18 
19 


import json 


class WeatherPipeline (object): 


def process_item(self, item, spider): 


today = time.strftime('$Y$m$d', time.localtime()) 
fileName = today + '.json' 
with codecs.open(fileName, 'a', 'utf-8') as fp: 
jsonStr = json.dumps (dict (item)) 
fp.write("$s \r\n" %jsonStr) 
return item 


然后 修改 settings.py 文件 ， 将 pipelines2json 加 入 到 ITEM_PIPELINES 中 去 。 修 改 后 的 
settings.py 文件 内 容 如 下 : 


* -*- coding: utf-8 -*- 


On WN HB 


by 


0 0 - 0 


10 
11 
12 
13 
14 
15 
16 


User-Agent 


17 
18 
19 
20 
21 
22 


23 } 


Scrapy settings for weather project 


For simplicity, this file contains only the most important settings 


default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


BOT_NAME = 'weather' 


SPIDER_MODULES = ['weather.spiders'] 
NEWSPIDER MODULE = 'weather.spiders' 


# Crawl responsibly by identifying yourself (and your website) on the 


#USER_AGENT = 'weather (*http://www.yourdomain.com)"' 


ITEM PIPELINES - ( 


'weather.pipelines.WeatherPipeline':300, 


'weather.pipelines2json.WeatherPipeline':301 


测试 一 下 效果 。 回 到 weather 项 目下 执行 命令 : 
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scrapy crawl wuHanSpider 
ls 
cat *.json 


得 到 的 结果 如 图 5-29 所 示 。 


^: "\udelc\u5317\u98ce", "temperature": "7,-5", "weather": "\u6674") ^ 
("cityDate": "\u6b66\u6c4902\u670802\u65e5", "week": "\u661f\u671f\u4e94", "wind 
i": "\u5317\u98ce", "temperature": "8,-4", "weather": "iu9634") 

[("cityDate": "\u6b66\u6c4902\u670803\u65e5", "week": "\u661f\u671f\u516d", "wind 
^: "\udelc\u5317\u98ce", "temperature": "7,-4", "weather": "\u6674"} 
("cityDate": "\u6b66\u6c4902\u670804\ubSe5", "week": "Wu661fVu671fVu65e5", "wind 
^: "\udelc\u98ce", "temperature": "7,-3", "weather": "\u591a\u4e91"} 
("cityDate": "\u6b66\u6c4902\u670805\ubS5e5", "week": "\u661f\u671f\u4e00", "wind 
I": "\udelc\u98ce", "temperature": "7,-3", "weather": "\u9634" 

{"cityDate": "\ude0a\u6d7701\u670830\us5e5", "week": "Vu66lfiu671fVudeBc", "wind 
": "iu897fNu5317Nu98ce", "temperature": "4,-3", "weather": "\u973e"} 
("cityDate": "\u4e0a\u6d7701\u670831\u6Se5", "week": "\u661f\u671f\use09", "wind 
^: "\u897£\u5317\u98ce", "temperature": "3,-1", "weather": "\u9634"} 
("cityDate": "\ud4e0a\u6d7702\u670801\u65e5", "week": "\u661f\u671f\u56db", "wind 
^: "\u5317\u98ce", "temperature": "6,-1", "weather": "\u6674" 

("cityDate": "iu4e0aVu6d7702 0670802 Vu65e5", "week": "\u661f\u671f\u4e94", "wind 
": "\u897£\u5317\u98ce", "temperature": "6,0", "weather": "\u591a\u4e91" 
("cityDate": "iu4e0au6d7702V0670803Vu65e5", "week": "\u661f\u671f\u516d", "wind 
": "\u897f\u5317\u98ce", "temperature": "1,-2", "weather": "iu6674") 
("cityDate": "\ude0a\u6d7702\u670804\u65e5", "week": "\u661f\u671f\u65e5", "wind 
": "\u897£\u5317\u98ce", "temperature": "1,-3", "weather": "iu6674") 
("cityDate": "\u4e0a\u6d7702\u670805\u65e5", "week": "\u661f\u671f\u4e00", "wind 
": "\u5317\u98ce", "temperature": "3,-5", "weather": "u6674" 

king@debian8: ~/code/scrapy/weathers [] " 


529 ”保存 结果 为 json 


从 图 5-29 来 看 试验 成 功 了 。 按 照 这 个 思路 ， 如 果 要 将 结果 保存 成 csv 等 格式 ，settings.py 
应 该 怎么 修改 就 很 明显 了 。 














5.4.4 数据 存储 到 MySQL 


数据 库 有 很 多 ，MySQL、Sqlite3、Access、Postgresql 等 等 ， 可 选择 的 范围 很 广 。 笔 者 选 
择 的 标准 是 ，Python 支持 良好 、 能 够 跨 平台 、 使 用 方便 ， 其 中 Python 标准 库 默 认 支持 

Sqlite3。 但 谁 让 Sqllit3 声名 不 显 呢 ，Access 不 能 跨 平 台 。 所 以 这 里 笔者 选择 名 气 最 大 ， 
Python 支持 也 不 错 的 MySQL. MySQL 使 用 人 数 众多 ， 资 料 随处 可 见 ， 出 现 问题 咨询 也 挺 方 
便 。 就 是 它 了 。 

在 Linux 上 安装 MySQL 很 方便 。 首 先 连接 Putty 后 ， 使 用 root 用 户 权限 ， 执 行 命令 : 


apt-get install mysql-server mysql-client 


在 安装 过 程 中 ， 会 要 求 输入 MySQL 用 户 root 的 密码 (此 root 非 彼 root， 一 个 是 系统 用 
P root， 一 个 是 MySQL 的 用 户 root) 。 这 里 设置 MySql 的 root 用 户 密 码 为 debian8 。 

MySQL 安装 完毕 后 ， 默 认 是 自动 启动 的 。 首 先 连接 到 MySQL 上 ， 查 看 MySQL 的 字符 
编码 。 执 行 命令 : 


mysql -u root -p 
SHOW VARIABLES LIKE "character$"; 
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执行 结果 如 图 5-30 所 示 。 








|copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Joracie is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


[Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


Imysql> SHOW VARIABLES LIKE "character"; 


character_set_client 
character_set_connection 
character_set_database latini 


Character set filesystem | binary 


character set results ucts 
character_set_server latini 
Character set system ucts 
character_sets_dir 


8 rows in set (0.00 sec) 


Imysqi> [] 
5-30. MySQL 默认 字符 编码 


其 中 ，character_set_database 和 character set server 设置 的 是 latin! 编码 ， 刚 才 用 Scrapy 
采集 的 数据 都 是 utf8 编码 。 如 果 直 接 将 数据 加 入 数据 库 ， 必 定 会 在 编程 处 理 中 出 现 乱码 问 
题 ， 所 以 要 稍微 修改 一 下 。 网 上 流传 着 很 多 彻底 修改 MySQL 默认 字符 编码 的 帖子 ， 但 由 于 
版 本 的 问题 ， 不 能 通用 。 所 以 只 能 采取 笨 方 法 ， 不 修改 MySQL 的 环境 变量 ， 只 在 创建 数据 
库 和 表 的 时 候 指 定 字符 编码 。 创 建 数据 库 和 表格 ， 在 MySQL 环境 下 执行 命令 : 


CREATE DATABASE scrapyDB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 
USE scrapyDB; 

CREATE TABLE weather ( 

id INT AUTO_INCREMENT, 

cityDate char(24), week char(6), 

img char(20), 

temperature char(12), 

weather char(20), 

wind char (20), 

PRIMARY KEY(id) )ENGINE-InnoDB DEFAULT CHARSET-utf8; 


执行 结果 如 图 5-31 所 示 。 
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oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


[Type 'help;' or 'Vh' for help. Type 'Vc' to clear the current input statement. 


cityDate char(24), week char(6), 

img char(20), 

temperature char(12), 

weather char(20), 

wind char(20), 

PRIMARY KEY(id) )ENGINE-InncDB DEFAULT CHARSETeutf8; 





图 5-31 创建 数据 库 


其 中 ， 第 一 条 命令 创建 了 一 个 默认 字符 编码 为 utf8、 名 字 为 scrapyDB 的 数据 库 ， 第 二 条 
命令 进入 数据 库 ， 第 三 条 命令 创建 了 一 个 默认 字符 编码 为 tB KFA weather 的 表格 。 查 
看 这 个 表格 的 结构 ， 如 图 5-32 所 示 。 


cityDate char(24) 
week char(6) 


|! img char (20) 
temperature | char(12) 
weather char(20) 

char (20) 


7 rows in set (0.00 sec) 


Imysqi» 





5-32 查询 表 结构 


由 图 5-32 可 以 看 出 表格 中 的 项 基本 与 wuHanSpider 疏 取 的 项 相同 。 至 于 多 出 来 的 那 一 项 
id， 是 作为 主键 存在 的 。MySQL 的 主键 是 不 可 重复 的 ， 而 wuHanSpider MQM PBA NE 
这 个 条 件 的 ， 所 以 还 需要 另外 提供 一 个 主键 给 表格 更 加 合适 。 

创建 完 数据 库 和 表格 ， 下 一 步 创建 一 个 普通 用 户 ， 并 给 普通 用 户 管理 数据 库 的 权限 。 在 
MySQL 环境 下 ， 执 行 命令 : 

INSERT INTO mysql.user (Host,User,Password) 
VALUES ("%", "CrawlUSER", password ("crawl123") ); 

INSERT INTO mysql.user (Host, User, Password) 
VALUES ("localhost", "crawlUSER", password ("crawll23")); 

GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 
'craw1123'; 

GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY 
"crawl123'; 


执行 结果 如 图 5-33 所 示 。 
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P king@debian: ~ =- 0] x 
fmysal> INSERT INTO mysql .user (Host, User, Password) VALUES("%","crawlUSER",passwor ^ 
a ("craw1123") ); 

query OK, 1 row affected, 3 warnings (0.00 sec) 





mysql> INSERT INTO mysql.user(Host,User,Password) VALUES ("localhost", "crawlUSER" 
|, password ("craw1123")); 
Query OK, 1 row affected, 3 warnings (0.00 sec) 


Ínysql» GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 'crawli 


mysql> GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY ' 


Inysqi> exit; 





图 5-33 ”创建 新 用 户 、 赋 予 管理 权限 


第 1 条 命令 创建 了 一 个 用 户 名 为 crawIUSER 的 远程 用 户 ， 该 用 户 只 能 远程 登录 ， 不 能 本 
地 登录 。 第 2 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 本 地 用 户 ， 该 用 户 只 能 本 地 登录 ， 不 
能 远程 登录 。 第 3~4 条 命令 则 赋予 了 crawIUSER. 用 户 管理 scrapyDB 数据 库 的 所 有 权限 。 最 
后 退出 MySQL. Bt, BORAT IM MAC OA TRA. iE Scrapy 来 连接 了 。 

Python 的 标准 库 中 没有 直接 支持 MySQL 的 模块 。 在 Python 第 三 方 库 中 能 连接 MySQL 
的 不 少 ， 这 里 笔者 选择 使 用 最 广 的 PyMySQL3 模块 。 


1. Linux 中 安装 PyMySQL3 模块 


在 Python 2 的 年 代 ， 连 接 MySQL 的 首选 是 MySQLdb 模块 。 到 了 Python 3 横行 ， 
MySQLdb 模块 终于 被 淘汰 了 ， 好 在 有 功能 完全 一 致 的 模块 蔡 代 了 它 : PyMySQL3 模块 。 


在 Linux 下 安装 PyMySQL3 模块 ， 最 简单 的 方法 是 借助 Debian 庞大 的 软件 库 〈 可 以 
说 ， 只 要 不 是 私有 软件 ，Debian 软件 库 总 不 会 让 人 失望 ) 。 在 终端 下 执行 命令 : 


Python3 -m pip install pymysql3 


执行 结果 如 图 5-34 所 示 。 





king@debian8: ~ = ü x 
E) 


king@debian8:~$ su ^ 
密码 : 
root@debian8:/home/king# python3 -m pip install pymysql3 
Collecting pymysqi3 
Downloading https: //mirrors.ustc.edu.cn/pypi/web/packages/82/c4/55b23360d9d719 
SefSe2e5266b9953£562cla3cScele4f71df6c72587a0e/PyMySQL3-0.5.tar.gz 
Building wheels for collected packages: pymysqi3 
Running setup.py bdist_wheel for pymysql3 ... done 
Stored in directory: /root/.cache/pip/wheels/a3/57/4c/cf6£8211dcb6243£94a374be 
9a8290b2aa6cc5352c09055£62 
Successfully built pymysqi3 
Installing collected packages: pymysqi3 
Successfully installed pymysql3-0.5 
root @debian8: /home/king# 
root @debian8: /home/king# 


5-34 Linux 安装 PyMySQL3 模块 











um 安装 这 个 模块 必须 是 root H P BUR 








2. Windows 中 安装 PyMySQL3 模块 


这 个 模块 在 Windows 下 安装 时 也 必须 是 管理 员 权限 ， 所 以 首先 得 用 管理 员 权 限 打 开 终 
端 ， 如 图 5-35 所 示 。 


10) 

打开 文件 位 置 (人 
SERESEK 
阳 到 [开始 ] SeU) 


还 原 凡 前 的 版 本 (V) 


发 送 到 (N) 
mun 

复制 (C) 
eftt) 
Beo) 
EZM) 


BER) 





5-35 ”使 用 管理 员 权限 


在 Windows 中 安装 PyMySQL3 最 简单 的 方法 还 是 pip， 如 果 不 觉得 麻烦 也 可 以 下 载 源码 
安装 ， 执 行 命令 : 


pip install pymsql3 


执行 结果 如 图 5-36 所 示 。 


Microsoft Windows [版 


权 所 有 «c» 2009 Microsoft Cermati: 保留 所 有 权利 。 


:\Windows\system32>pip install pynysql3 
ollecting pymysql3 
Using cached https://pypi.doubanio.con/packages/82/c4/55b23368d9d7195ef5e2e526 
6b9953£562c1a3c5ceie4f71dF6c72587aBe/PyMySQL3-8.5 tar. gz 
[Installing collected packages: pynysq13 
Running setup.py install for pynysql3 ... done 
Successfully installed pynysq13-8.5 


:Windows \systen32>, 








5-36 Windows 安装 PyMySQL3 模块 


Python 模块 已 经 准备 完毕 ，MySQL 的 库 表格 也 准备 完毕 ， 现 在 可 以 编辑 
pipelines2mysql.py 了 。 在 项 目 名 为 weather 的 Scrapy 项 目 中 的 pipelines.py 同 层 目 录 下 ， 使 用 
文本 编辑 器 编写 pipelines2mysql.py， 编 辑 完毕 的 pipeliens2mysql.py 的 内 容 如 下 : 


# -*- coding: utf-8 -*- 


# Define your item pipelines here 

+ 

# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


OU Bn WN PB 
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T 


8 import pymysql 
9 
10 class WeatherPipeline (object): 


TF def process_item(self, item, spider): 
12 cityDate = item['cityDate'] 

13 week = item['week'] 

14 temperature = item['temperature'] 
15 weather = item['weather'] 

16 wind = item['wind'] 

17 

18 conn = pymysql.connect ( 

19 host = 'localhost', 

20 port = 3306, 

2] user = 'crawlUSER', 

Io passwd = 'crawll23', 

29 db = 'scrapyDB', 

24 charset = 'utf8') 

25 cur = conn.cursor() 

26 mysqlCmd = "INSERT INTO weather(cityDate, week, temperature, 


weather, wind) VALUES('%s', '%s', '$s', '%s', '%s');" %(cityDate, week, 


temperature, weather, wind) 


27 cur.execute (mysqlCmd) 
28 cur.close() 

29 conn.commit () 

30 conn.close() 

31 

32 return item 


第 1 TARE TCR F, 8 行 导入 了 所 需 的 模块 。 第 25-30 行使 用 
PyMySQL 模块 将 数据 写 入 了 MySQL 数据 库 中 。 最 后 在 settings.py 中 将 pipelines2mysql.py 加 
入 到 数据 处 理 数 列 中 去 。 修 改 后 的 settings.py 内 容 如 下 : 


# -*- coding: utf-8 -*- 


Scrapy settings for weather project 


Qo WN EH 
te 


# For simplicity, this file contains only the most important settings 
by 
default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


(o OID 


10 
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11 BOT NAME = 'weather' 

12 

13 SPIDER MODULES - ['weather.spiders'] 

14 NEWSPIDER MODULE - 'weather.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER AGENT = 'weather (*http://www.yourdomain.com)" 

18 

19 #### user add 

20 ITEM PIPELINES - ( 

21 'weather.pipelines.WeatherPipeline':300, 

22 'weather.pipelines2json.WeatherPipeline':301, 

23 'weather.pipelines2mysql.WeatherPipeline':302 

24 } 


实际 上 就 是 把 pipelines2mysql 加 入 到 settings.py 的 ITEM PIPELINES 项 的 字典 中 去 就 可 
以 了 。 

最 后 运行 scrapy MEH, AA MySQL 中 的 结果 ， 执 行 命令 : 

scrapy crawl wuHanSpider 

mysql -u crawlUSER -p 

use scrapyDB; 

select * from weather; 















执行 结果 如 图 5-37 所 示 。 
Be 
^ 
Imysqi» select * from weather; 
1 | weather | wind 

|| 19 | X017 30H | 星期 1 多 云 1 北 风 1 

1 20 | 武汉 01 月 30 日 星期 二 (B 1 北 风 1 
21 | 武汉 01 月 31 日 | 星期 三 1 多 云 1 北 风 1 
22 | 武汉 02 月 01 日 | 星期 四 |" 1 东北 风 1 
23 | 武汉 02 月 02 日 | 星期 五 |B 1 北 风 1 
24 | 武汉 02 月 03 日 | 星期 六 |" 1 北 风 1 
25 | 武汉 02 月 04 日 | 星期 日 1 多 云 1 东风 1 
26 | 武汉 02 月 05 日 星期 一 |gB 1 东风 1 
27 | 上 海 01 月 30 日 | 星期 二 18 1 西北 风 1 
28 | 上 海 01 月 31 日 | 星期 三 | gp 1 西北 风 1 
29 | 上 海 02 月 01 日 | 星期 四 |" 1 tA 1 
30 | 上 海 02 月 02 日 | 星期 五 1 多 云 1 北 风 1 
31 | 上 海 02 月 03 日 | 星期 六 1 1 西北 风 1 
32 | 上 海 02 月 04 日 星期 日 1 畏 1 西北 风 1 
33 | 上 海 02 月 05 日 | 星期 一 |" IER 1 

15 rows in set (0.00 sec) 

mysql> [] Y 





5-37 MySQL 中 数据 


MySQL 中 显示 PyMySQL3 模块 存储 数据 有 效 。 这 个 Scrapy 项 目 到 此 就 顺利 完成 了 。 
一 般 来 说 为 了 阅读 方便 ， 结 果 保存 为 txt 就 可 以 了 。 如 果 礁 取 的 数据 不 多 ， 需 要 存 入 表 


181 


格 备查 ， 那 可 以 保存 为 cvs 或 json ERDE. WR ie MBAR HA, ARES 
考虑 用 MySQL 吧 。 专 业 的 软件 做 专业 的 事情 。 


5.5 Scrapy MERRE : 获取 代理 


EAs p AIG dm POR BR RAE OR, (E AE WA SBC o 例如 cityDate 中 显示 了 城市 ， 显 
示 了 日 期 ， 但 并 没有 显示 具体 的 年 月 日 。 如 果 数 据 比 较 少 ， 还 可 以 慢 慢 地 反 推 计算 ， 如 果 数 
据 多 了 ， 那 就 太 麻烦 了 。 这 就 涉及 了 有 怜 取 数据 后 的 处 理 ， 本 节 我 们 讲解 一 下 怜 取 数 据 后 如 何 
处 理 数据 。 


5.5.1 项 目 准 备 


本 节 将 从 网 站 上 获取 免费 的 代理 服务 器 。 使 用 Scrapy 获取 代理 服务 器 后 ， 一 一 验证 哪些 
代理 服务 器 可 用 ， 最 终 将 可 用 的 代理 服务 器 保存 到 文件 。 

首先 要 做 的 是 找到 免费 代理 服务 器 的 来 源 。 浏 览 器 中 打开 百度 ， 搜 索 “ 免 费 代理 服务 
器 ”， 搜 索 结果 如 图 5-38 所 示 。 


rp 
Baas 免费 代理 服务 器 百度 一 下 
O 为 你 推荐 : proxy 在 线 国外 在线 代 理 服务 器 ”免费 同 页 在 线 代理 


代理 - 高 速 http 代 理 ip 每 天 更 新 


快 代理 专业 为 您 提供 代理 ip 购 买 | 代理 黑 务 器 | 随机 五 位 端口 高 匿 代理 | 高 匿 代 更 p| 取 虫 代理 ip| 刷 
单 代理 ip| 私 密 代 更 p| 扣 享 代理 | 扣 训 代 惕 ip 高速 http 代 理 | 免费 代理 ip| 
wwwkuaideili. com/ + Wi - ERIRE - 25358 


ip httpi bc 代理 服 国内 R-At 


有 代理 ip 资源 网 每 日 发 布 各 种 最 新 免 费 代理 ip、 代 埋 时 务 器 地 址 为 主 
常年 提供 免责 代理 ip、qq 代 理 ip 、httpip 代 理 地 址 、 国 内 ip 代理 等 网 基 
有 代理 |P 人 pp 









a 2013082178 
ARE RAE LAT. BARS SARA SRM Bm GIRAR. 
国内 外 的 很 多 ,这 种 属于 通过 第 三 方 抓 取 的 ,这 种 站 点 也 很 条 .百度 


4 个 回答 2013.08-13 
3 个 回答 2016-04-11 


^ 国内 外 
BHBSABHTPKUE Wim SS NOTRE ana. proe 
理 实时 更 新 .可 以 根据 你 的 过 要 分 批 提取 
www xicidaili com = -百度 心照 -评价 


图 5-38 ”搜索 免费 代理 服务 器 


先 在 www.proxy360.cn 中 获取 代理 服务 器 。 如 果 数 量 不 够 ， 可 以 在 www.xicidaili.com 中 
获取 代理 服务 器 。 

在 浏览 器 中 打开 这 两 个 站 点 ， 观 察 所 需 的 项 目 。 发 现 大 部 分 的 项 目 都 相同 ， 共 有 的 项 目 
有 服务 器 也 、 服 务 器 端口 、 是 否 匿名 、 服 务 器 位 置 。xicidaili 站 点 中 独 有 的 项 有 服务 协议 。 
最 后 还 应 该 添加 获取 服务 器 的 来 源 站 点 。 知 道 了 这 些 内 容 ，items.py 文件 基本 已 经 出 来 了 。 
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5.5.2 ”创建 编辑 Scrapy (eB 

打开 Putty 连接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 spider 基础 模 
版 创建 一 个 spider。 执 行 命令 : 

cd 

cd code/scrapy 

scrapy startproject getProxy 


cd getProxy 
scrapy genspider proxy360Spider proxy360.cn 


这 里 创建 了 一 个 名 为 getProxy 的 Scrapy 项 目 ， 并 创建 了 一 个 名 为 proxy360Spider.py 的 
Spider 文件 。 

1 . 修改 items.py 

根据 前 面 的 分 析 ，items.py 应 该 包含 6 项 。items.py 文件 内 容 如 下 : 


1 $ =t- coding: utf=90 =*= 


2 

3 # Define here the models for your scraped items 
4€ 

5 # See documentation in: 

6 # http://doc.scrapy.org/en/latest/topics/items.html 
1 

8 import scrapy 

9 

10 

11 class GetproxyItem(scrapy.Item): 

12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 ip = scrapy.Field() 

15 port = scrapy.Field() 

16 type = scrapy.Field() 

17 loction = scrapy.Field() 

18 protocol = scrapy.Field() 

19 source = scrapy.Field() 


需要 几 项 ， 就 填 入 几 项 。 最 简 模式 就 是 只 要 代理 IP 和 端口 。 这 个 文件 没什么 好 解释 的 ， 
比较 简单 直 白 。 


2 . 修改 Spider 文件 proxy360Spider.py 


先 把 proxy360Spiderpy 文件 放 到 一 边 。 使 用 scrapy shell 命令 查看 一 下 连接 网 站 返回 的 结 
果 和 数据 ， 进 入 getProxy 项 目下 的 任意 目录 下 ， 执 行 命令 : 


scrapy shell http://www.proxy360.cn/Region/China 
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tMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 
[2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
Jdleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 


[scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


19:22:32+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
19:22:32+0800 [default] INFO: Spider opened 
19:22:32+0800 [default] DEBUG: Crawled (200) «GET http://www.proxy360 
.cn/Region/China» (referer: None) 
[s] Available Scrapy objects: 
crawler ^ <scrapy.crawler.Crawler object at Ox7fccel9f3910» 


nse 


spider <Spider 'default' at 0x7fcce0b8d150> 
Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req or url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 





图 5-39 scrapy shell 


从 response 的 返回 代码 可 以 看 出 request 请 求 正 常 返 回 。 再 查看 一 下 response 的 数据 内 
容 ， 执 行 命令 : 


response.xapth('/*').extract() 


执行 结果 如 图 5-40 所 示 。 


|n style="width:60px;" class="tbBottomLine">\r\n \u603b\u7684\ ^ 
|aabcs\uszo6\r\n </span>\z\n <span style="width: 30p 
x" class="tbBottomLine">\r\n \us3ef\u7528\r\n 
</span>\z\n <span style="width:100px: text-align:center; " class| 
|-"tbBorcomLine"»VzAn \u901f\uSea6\u6d4b\usbes\r\n 
</span>\r\n </div>\r\n\r\n\r\a  \r\n <div class="proxyli 
scirem" name="1ist_proxy_ip">\r\n <div style="float:left; display:blo 
ck; width:630px;">\r\n <span class=e"tbBottomLine" style="width:140px; 
">\z\n ED </span>\r\n <span 
cLass="tbBottomLine” style="widen:S0px:">\r\n 3228\r\n 
</span>\r\n <span class-"tbBottomLine " style="Widen? 7px: ">\r\n 


29ad8\u533f\r\n </span>\r\n <span class=" 
|rbBotromLine " SS ec Width: 70px; ">\r\n \use2d\us6fd\r\n 


</span>\r\n <span class="tbBottomLine " style="width: 80px;">\r\n 
09\u670805\u6s5eS\r\n </span>\r\n <span cl 
|-"sbBortomLine " style="width: 80px:">\r\n 3.44(70\u7968) \r\n 
</span>\r\n <span class="tbBottomLine " style="width: 60px:">\r 
^a 3.44\r\n </span>\r\n <span class="tbBott 
omLine " style="width: 30px;">\r\n 24\u5929\r\n </span> 
Nen </div>\r\n <div style="width:100px; float:left;">\r\n 
<div id="ct100_ContentPlaceHolderi_repProxyList_ct101_RatingSpee 
d" cicle="3.44285714285714">\r\n\t\t<input type="hidden" name="ctl00$ContentPlac 
|eHolderi$repProxyList$ct10iSRatingSpeed RatingExtender ClientState" id="ct100_Co 
IntentPlaceHolderi_repProxyList_ctl0i_RatingSpeed RatingExtender ClientState" val ~ 





5-40 response 数据 


返回 的 数据 中 含有 代理 服务 器 (难道 返回 代码 为 200 时 ， 还 有 返回 数据 不 含 代理 服务 器 
的 吗 ? 这 个 还 真有 ) 。 测 试 一 下 如 何 使 用 选择 器 在 response 中 的 得 到 所 需 的 数据 。 在 浏览 器 
中 打开 http://www.proxy360.cn/Region/China， 在 网 页 的 任意 空白 处 右 击 ， 选 择 “ 查 看 网 页 源 
代码 ”， 打 开 页 面 的 源 代码 网 页 ， 如 图 5-41 所 示 。 
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166 <div class-"proxylistitem" name-"list proxy ip^? 
167 X 

































5-4 页 面 源 代 码 





D view-source:www.proxy360.cn/Region/China 
应 用 CIA Firefox 图] EF G meee Y aE Y we CO study 


loat:left; display:block: width: 630px;"> 





168 : tbBottoaLime" style="width:140px:"> 
169 61. 185. 219. 126 

170 </spar> 

171 span class="thBottomLine” style=“width:50px;"> 
172 3128 

173 </spar> 

174 <span class="tbBottonLine ^ style="width: TOpx;"^ 
175 BE 

176 ‘/span> 

77 <span class="tbBottomLine “ style="width: T0px:~ 
178 TE 

179 / spar? 

180 span class="thBottomLine " style="width: 80px:”> 
181 09 月 05 日 

182 </span> 

183 <span class="tbBottomLine " style="width: 80px;“> 
184 3.36(22 票 ) 

185 </span> 

186 <span class="tbBottomLine " style="width: 60px:~ 
187 3.36 

188 spar? 

189 span class="tbBottonLine " style="width: 30pe:”> 
190 2 天 

191 (spar? 

192 </div> 

193 div style="width: 100px; float: left ;" 

194 <div id-"ctl00 ContentPlaceHolderl repProxyList2 ctlÜl RatingSp 


观察 一 下 ， 似 乎 所 有 的 数据 块 都 是 以 <div class-"proxylistitem" name-"list proxy, ip"»iX^* 


tag 开头 的 。 在 scrapy shell 中 测试 一 下 ， 回 到 scrapy shell 中 ， 执 行 命令 : 


subSelector = response.xpath('//div[@class="proxylistitem" and @name 
="list_proxy_ip"]') 

subSelector.xpath('.//span[1]/text ()") «extract () [0] 
subSelector.xpath('.//span[2]/text ()') .extract () [0] 
subSelector.xpath('.//span[3]/text ()') .extract () [0] 
subSelector.xpath('.//span[4]/text ()") .extract () [0] 


执行 结果 如 图 5-42 所 示 。 


# king@det 








~/code/crawler/scrapyProject/getProxy/getProxy 





|jst proxy ip"]') 


In [10]: subSelector.xpath(*.//span[1]/text () ') .extract () [0] 
Out[10]: u'VrV 58.222.254. 11\ r\n J 
In [12]: subSelector.xpath(*.//span(2]/text () *) .extract() [0] 


jour [11]: u'\r\n 3128\r\n 


|n [12]: subSeiector.xpath('.//span[3]/text  *) .extracc() [0] 
out [22]: u'\r\n \u9ad8\u533£\r\n ‘ 


In [13]: subSelector.xpath(*.//span[4]/text () *) -extract () [0] 
jjoutt13]: ut\r\n \ude2d\uséfd\r\n 





In [14]: 


In [9]: subSelector = response.xpath('//div[@class="proxylistitem" and Gname-"li ^ 





图 5-42 proxy360Spider 测试 选择 器 








所 得 数据 左右 两 侧 都 有 很 多 的 空格 。 
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现在 如 何 用 选择 器 从 response 中 获取 所 需 数据 的 方法 也 出 来 了 ， 接 下 来 可 以 开始 编写 


Spider 文件 proxy360Spider.py。proxy360Spider.py 的 内 容 如 下 : 


1 # -*- coding: utf-8 -*- 

2 import scrapy 

3 from getProxy.items import GetproxyItem 
4 

5 class Proxy360Spider (scrapy.Spider): 


6 name = "proxy360Spider" 
af allowed domains = ["proxy360.com"] 
8 nations - 


['Brazil','China','America', 'Taiwan', 'Japan', 'Thailand', 'Vietnam', 'bahrein'] 


9 start urls - [] 

10 for nation in nations: 

11 start urls.append('http://www.proxy360.cn/Region/' * nation) 

12 

als) 

14 def parse(self, response): 

15 subSelector = response.xpath('//div[@class="proxylistitem" and 
Gname-"list proxy ip"]') 

16 items - [] 

17 for sub in subSelector: 

18 item - GetproxyItem() 

19 item['ip'] = sub.xpath('.//span[1]/text()').extract() [0] 

20 item['port'] = sub.xpath('.//span[2]/text()').extract() [0] 

21 item['type'] = sub.xpath('.//span[3]/text () ') .extract () [0] 

22 item['loction'] = sub.xpath('.//span[4]/text () ') .extract () [0] 

23 item['protocol'] - 'HTTP' 

24 item['source'] = 'proxy360' 

25 items.append (item) 

26 return items 


在 http://www.proxy360.cn/Region/China 页 面 中 并 没有 显示 服务 器 使 用 的 协议 。 一 般 都 是 


HTTP 协议 ， 所 以 item[protocol] 统 一 设置 成 了 _ HTTP。 而 数据 来 源 都 是 proxy360 网 站 ， 
item['source'] 都 设置 成 了 proxy360。 
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3 . 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 
Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


- o0 50 NHnd 
LL ME NE 


8 import codecs 
9 
10 class GetproxyPipeline (object): 


11 def process_item(self, item, spider): 

12 fileName = 'proxy.txt' 

13 with codecs.open (fileName, 'a', 'utf-8') as fp: 

14 fp.write("{'%s': '%s://%s:%s'}||\t $s Nt $s Nt %s \r\n" 

15 $(item['protocol'].strip(), item['protocol'].strip(), 
item['ip'] .Strip(), item['port'].strip(), item['type'].strip(), 
item['loction'].strip( ), item['source'].strip())) 

16 return item 


在 14 行 中 加 入 了 两 条 坚 线 ， 是 为 了 以 后 能 方便 地 将 代理 字典 ( {'http"'http://1.2.3.4:8080}) ME 
符 串 中 分 离 出 来 。 在 15 行 中 ， 写 入 文件 时 使 用 了 strip() 函 数 去 除 所 得 数据 左右 两 边 的 空格 。 


4 . 修改 settings.py， 决 定 由 哪个 文件 来 处 理 获 取 的 数据 


settings.py 稍 作 修 改 即 可 。 将 pipelines.py 添加 到 ITEM_PIPELINES 中 去 就 能 解决 问题 。 
settings.sp 文件 内 容 如 下 : 


1 $ =*= coding: utf=0 =*= 

2 

3 # Scrapy settings for getProxy project 

4+ 

5 # For simplicity, this file contains only the most important settings 
by 

6 # default. All the other settings are documented here: 

UE 

84 http://doc.scrapy.org/en/latest/topics/settings.html 

9# 

10 

11 BOT_NAME = 'getProxy' 

12 


13 SPIDER_MODULES = ['getProxy.spiders'] 

14 NEWSPIDER_MODULE = 'getProxy.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER_AGENT = 'getProxy (+http://www.yourdomain.com) ' 

18 

AO) 

20 ### user add 

21 ITEM_PIPELINES = { 

22 'getProxy.pipelines.GetproxyPipeline':100 

23 


最 后 回 到 项 目 getProxy 目录 下 ， 执 行 命令 : 
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scrapy crawl proxy360Spider 
ls 

wc -1 proxy.txt 

more proxy.txt 


执行 结果 如 图 5-43 所 示 。 





WP king@debian8: ~/code/scrapy/getProxy 
{'HTTPS': 'HTTPS://182 
('HTTPS': ‘HTTPS: 
li 
li 


1i 








' HTTP: //122.114.31.17 
"HTTP: //123.185.130.119 





: "HTTPS://1 
('HTTPS': ‘HTTPS: 
21i 








1i 


1i 









('HTTPS': 'HTTPS://180.175.237.78:8118"* 


TTP: //61.135.217.7:80*)|| 
808*)11 
18") 





'HTTPS://59.59.215.30:808*)|| 
33.23.7:808") || 
.245.58.221:8118*)|| 
('HTTPS': 'HTTPS://112.81.30.60:8118']|| 
('HTTP': 'HTTP://180.123.27.175:9999']|| 


('HTTP': 'HTTP://119.148.160.71:808')|| 
.58.144.4:8118']|| 





('HTTPS': 'HTTPS://123.116.242.190:8118')|| 


('HTTPS': 'HTTPS://218.94.252.178:8118"]|| 


L1 
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% 
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L1 
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5-43 scrapy crawl proxy360Spider 


得 到 的 结果 没什么 问题 。 可 花 了 这 么 长 时 间 最 后 只 得 到 了 144 个 数据 的 结果 ， 效 率 也 太 
低 了 点 吧 。 不 过 没关系 ， 再 给 它 一 个 Spider 就 可 以 了 ， 一 个 站 点 的 数据 不 够 就 再 加 一 个 站 
点 。 如 果 还 不 够 ， 就 继续 增加 站 点 吧 ! 


5.55.3 多 个 Spider 


按照 一 个 Spider 的 思路 ， 得 到 的 proxy 数据 不 够 多 ， 则 可 以 在 www.xicidaili.com 中 获取 
代理 补足 。 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


cd 
cd code/scrapy 
cd getProxy 


scrapy genspider xiciSpider xicidaili.com 


创建 一 个 名 为 xiciSpiderpy 的 Spider 文件 。items.py 无 须 修改 了 ， 直 接 对 xiciSpider.py 做 
修改 就 可 以 了 。 我 们 还 是 先 用 scrapy shell 命令 来 确定 如 何 获取 数据 ， 执 行 命令 : 


scrapy shell http://www.xicidaili.com/nn/2 


得 到 的 结果 如 图 5-44 所 示 。 
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[2016-07-31 20:28:10+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[2016-07-31 20:28:10+0800 [xiciSpider] INFO: Spider opened 

[2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying «GET http://www.xicidaili. 
[con/nn/2» (failed 1 times): 500 Internal Server Error 

[2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying «GET http://www.xicidaili. 
com/nn/2» (failed 2 times): 500 Internal Server Error 

[2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Gave up retrying «GET http://www.xi 
cidaili.com/nn/2» (failed 3 times): 500 Internal Server Error 

[2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Crawled (500) «GET http://www.xicid 
aili.com/nn/2» (referer: None) 

[s] Available Scrapy objects: 

[s] crawler  <scrapy.crawler.Crawler object at 0x7f5b39055910» 

[s] item ü 


Settings <scrapy-sectings-settings object at Ox7f5b39a4e750» 
[s] spider <KicispiderSpider 'xiciSpider' at Ox7fSb381ef190» 
[s] Useful shortcuts: 
[s] shelp() Shell help (print this help) 
fetch(req or url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 





图 5-44 scrapy shell 


这 里 发 现 一 个 问题 。respnose 返回 的 代码 是 S00， 要 知道 返回 码 是 200 才 是 正常 返回 。 在 
浏览 器 中 打开 http://www.xicidaili.com/nn/2 是 正常 显示 的 ， 而 该 网 页 并 不 需要 登录 ， 那 就 是 
说 并 不 涉及 cookie. H scrapy shell 请 求 页 面 和 用 浏览 器 请 求 页 面 用 的 是 同一 IP。 也 不 存在 IP 
封锁 的 问题 。 剩 下 的 就 只 有 headers 中 User-Agent 的 问题 了 。 除 去 所 有 的 不 可 能 ， 最 后 那 一 
选项 大 致 就 是 正确 答案 。 

在 Scrapy 中 的 确 是 有 默认 的 headers， 但 这 个 headers 与 浏览 器 的 headers 是 有 区 别 的 。 
有 的 网 站 会 检查 headers， 如 果 是 正常 浏览 器 的 headers 网 站 则 予以 通过 ， 而 机 器 人 或 者 说 候 
虫 的 headers 则 拒绝 访问 。 所 以 在 这 里 只 需要 给 scrapy 一 个 浏览 器 的 headers 就 可 以 解决 问题 
了 。 修 改 settings.py 文件 内 容 如 下 : 

# -*- coding; utf-8 -*- 


# Scrapy settings for getProxy project 

+ 

# For simplicity, this file contains only the most important settings by 
# default. All the other settings are documented here: 

+ 

Li http://doc.scrapy.org/en/latest/topics/settings.html 


o 0050 WMHd 


11 BOT NAME - 'getProxy' 


13 SPIDER MODULES - ['getProxy.spiders'] 

14 NEWSPIDER MODULE = 'getProxy.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 
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17 #USER_AGENT = 'getProxy (+http://www.yourdomain.com)' 


20 ### user add 

21 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko)" 

22 ITEM PIPELINES = { 

23 'getProxy.pipelines.GetproxyPipeline':100 

24 ) 


只 需要 在 settings.py 里 添加 一 个 USER. AGENT 项 就 可 以 了 。 如 果 可 以 ， 尽 可 能 使 用 本 
机 浏览 器 的 headers 。 这 里 使 用 的 是 随意 选取 的 一 个 headers， 好 在 该 网 站 没有 根据 不 同 的 
headers 返回 不 同 的 内 容 。 

好 了 ， 再 回 到 getProxy 项 目的 目录 下 ， 使 用 scrapy shell 测试 如 何 获取 有 效 数 据 。 执 行 命 


























scrapy shell http://www.xicidaili.com/nn/2 


得 到 的 结果 如 图 5-45 所 示 。 





|eMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 
[2016-07-31 20:52:16+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
[dieware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 


1640800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
1640800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[xiciSpider] INFO: Spider opened 
:82: [xiciSpider] DEBUG: Crawled (200) «GET http://www.xicid 
aili.com/nn/2» (referer: None) 
[s] Available Scrapy objects: 
crawler  <scrapy.crawler.Crawler object at 0x7f212465a910» 


item o 


response Lora xicidaili 
settings  «scrapy.settings.Settings object at 0x7£2125053750> 
[s] spider 4XicispiderSpider 'xiciSpider' at 0x7£21237£4190> 
[s] Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) ^ View response in a browser 


5-45 ”修改 headers 后 scrapy shell 


如 图 5-45 ita, response 的 返回 码 为 200， 现 在 没 问 题 了 。 浏 览 器 中 打开 
http://www.xicidailicom/nn/2， 空 白 处 右 击 ， 选 择 “ 查 看 网 页 源 代码 ”， 打 开 了 页 面 的 源 代码 
网 页 ， 发 现 所 需 数据 的 块 都 是 以 <tr class="odd"> 或 者 <tr class=""> 开 头 的 。 在 scrapy shell 中 执 
行 命令 : 

subSelector = response.xpath('//tr[@class=""] |//tr[@class="odd"]') 

subSelector[0].xpath('.//td[2]/text () ') . extract () [0] 


subSelector[0].xpath('.//td[3]/text() ') . extract () [0] 
subSelector[0].xpath('.//td[4]//text () ') .extract () [0] 
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subSelector[0].xpath('.//td[5]/text()"').extract() [0] 
subSelector[0].xpath('.//td[6]/text() ') .extract () [0] 


执行 结果 如 图 5-46 所 示 。 


Selector = response.xpath(*//tr[@class=""] |//tr[@class="odd"]") 


: subSelector[0].xpath('.//td[2]/text () ') .excract () [0] 
: u'111.155.124.70' 


: subSelector[0].xpath('.//td[3]/text () ') .excract () [0] 
: u'8123' 


: subSelector[0].xpath('.//td[4]/a/text () ') .excract () [0] 
: u'\u5317\u4eac' 


: subSelector[0].xpath('.//td[5]/text () ') -extract() [0] 
: u'\u9ad8\u533f' 


: subSelector[0].xpath('.//td[6]/text () ') .excract () [0] 
: u'HITP' 





图 5-46 xiciSpider 测试 选择 器 
现在 xiciSpiderpy 怎么 编写 已 经 一 目 了 然 了 。xiciSpiderpy 的 内 容 如 下 : 


1 # -*- coding: utf=8 -*- 
2 import scrapy 
3 from getProxy.items import GetproxyItem 


4 

5 

6 class XicispiderSpider (scrapy.Spider): 

7 name = "xiciSpider" 

8 allowed domains - ["xicidaili.com"] 

9 wds = ['nn','nt','wn','wt'] 

10 pages = 20 

atat start urls - [] 

12 for type in wds: 

13 for i in xrange(l,pages + 1): 

14 start urls.append('http://www.xicidaili.com/'-4type*'/'*str(i)) 
15 

16 

ali def parse(self, response): 

18 subSelector = response.xpath('//tr[@class=""] |//tr[@class="0dd"]') 
19 items = [] 

20 for sub in subSelector: 

217 item = GetproxyItem() 

22 item['ip'] = sub.xpath('.//td[2]/text()"').extract() [0] 

23 item['port'] = sub.xpath('.//td[3]/text () ') .extract () [0] 
24 item['type'] = sub.xpath('.//td[5]/text () ') .extract () [0] 
25 if sub.xpath('.//td[4]/a/text () ') : 

26 item['loction'] = sub.xpath('//td[4] /a/text () ') .extract () [0] 
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27 
28 
29 
30 
31 
32 


else: 


item['loction'] = sub.xpath('.//td[4]/text () ') .extract () [0] 
item['protocol'] = sub.xpath('.//td[6]/text() ') .extract () [0] 


item['source'] = 'xicidaili' 
items .append (item) 


return items 


回 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


scrapy crawl xiciSpider 


ls 


wc -l proxy.txt 


执行 结果 如 图 5-47 所 示 。 





[2016-07-31 22:04:42+0800 [xiciSpider] INFO: Dumping Scrapy stats: 


('downloader/request bytes': 36972, 

'downloader/request count': 80, 
'downloader/request method count/GET': 80, 
'downloader/response bytes': 649788, 
'downloader/response count': 80, 
'downloader/response status count/200': 80, 

'finish reason': 'finished', 

'finish time': datetime.datetime(2016, 7, 31, 14, 4, 42, 977442), 
'item scraped count': 8000, 

'log count/DEBUG': 8082, 

*log count/INFO': 8, 

'response received count': 80, 

'scheduler/dequeued': 80, 

'scheduler/dequeued/memory': 80, 

'scheduler/enqueued': 80, 

'scheduler/enqueued/memory': 80, 

'start time': datetime.datetime(2016, 7, 31, 14, 3, 20, 377657)) 


2016-07-31 22:04:42+0800 [xiciSpider] INFO: Spider closed (finished) 
king8debian:-/code/crawler/scrapyProject/getProxyS 1s 
getProxy scrapy.cfg ^ proxy.txt 


übizLgode/crawler/scrapyProject/getProxyS wc -l proxy.txt 


Ikingédebian:-/code/crawler/scrapyProject/getProxyS [] 


图 5-47 scrapy crawl xiciSpider 








xicidaili.com [5]— IP, MAM AMER, Ht OCCUR VERDE IP. 0 OR 
了 ， 那 就 重启 路 由 器 或 者 光 猫 换个 人 P 吧 。 








从 文件 保存 的 记录 数字 来 看 ， 应 该 是 没 问 题 的 。 但 这 么 多 的 记录 ， 或 者 说 这 么 多 的 代理 


服务 器 有 多 少 是 可 用 的 呢 ? 这 就 是 下 一 小 节 的 问题 了 。 


5.5.4 ”处 理 Spider 数据 


如 何 来 验证 上 一 小 节 中 已 经 获取 到 的 代理 服务 器 地 址 ， 最 简单 的 方法 当然 是 在 pipelines 
文件 里 直接 修改 。 但 不 幸 的 是 验证 一 个 代理 服务 器 是 否 有 效 所 需 的 时 间 和 将 一 行 记录 写 入 文 
件 的 时 间 相 差 得 太 远 了 。 前 者 所 需 的 时 间 是 以 秒 计算 的 ， 后 者 是 以 微 秒 计算 。 这 样 一 来 还 不 
如 先 将 所 有 的 代理 服务 器 保存 到 文件 ， 然 后 另外 写 一 个 Python 程序 来 验证 代理 。 


进入 getProxy 项 目的 目录 下 ， 创 建 Python 验证 程序 。 执 行 命令 : 
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cd 

cd code/scrapy 

cd getProxy 

vi connWebWithProxy.py 


代理 服务 器 验证 程序 connWebWithProxy.py 的 内 容 如 下 : 





1 #!/usr/bin/env Python3 

2 #=*= coding: utf-8 =*= 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 

6 import urllib.request 

7 import re 

8 import threading 

9 import codecs 

10 

11 class TestProxy (object): 

T2 def init (self): 

13 self.sFile - 'proxy.txt' 

14 self.dFile - 'alive.txt' 

15 Self.URL = 'http://www.baidu.com/' 

16 self.threads = 10 

17 self.timeout = 3 

18 self.regex = re.compile('baidu.com') 

19 self.aliveList = [] 

20 

21 self.run() 

22 

23 def run (self): 

24 with codecs.open (self.sFile, 'r', 'utf-8') as fp: 
25 lines = fp.readlines() 

26 line = lines.pop() 

ER while lines: 

28 for i in range(self.threads): 

29 t = threading.Thread (target-self.linkWithProxy, args=(line,)) 
30 t.start() 

31 if lines: 

EFA line = lines.pop() 

33 else: 

34 continue 

35 

36 with codecs.open(self.dFile, 'w', 'utf-8') as fp: 
S for i in range(len(self.aliveList)): 
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38 fp.write(self.aliveList[i]) 


39 

40 

41 

42 def linkWithProxy(self, line): 

43 proxyStr = line.split('||') [0] 

44 proxyDic = eval (proxyStr) 

45 opener = urllib.request.build opener (urllib.request. 
ProxyHandler (proxyDic) ) 

46 urllib.request.install opener (opener) 

47 try: 

48 response = urllib.request.urlopen (self.URL, 
timeout-self.timeout) 

49 except: 

50 print('$s connect failed' $proxyDic) 

51 return 

52 else: 

53 try: 

54 str - response.read().decode('utf-8') 

55 except: 

56 print('$s connect failed' $proxyDic) 

57 return 

58 if self.regex.search (str): 

59 print ('%$s connect success ....ssssos ' $proxyDic) 

60 self.aliveList.append(line) 

执行 命令 : 


Python3 connWebWithProxy.py 


利用 多 线程 来 验证 来 源 文件 proxytxt 里 的 代理 。 经 过 验证 ， 有 181 个 代理 可 以 使 用 。 将 
selfthreads 设置 为 10， 使 用 10 个 进程 并 发 ， 大 概 需要 1 分 钟 左 右 ， 速 度 还 可 以 接受 。 这 个 
速度 已 经 很 快 了 ， 没 有 必要 将 selfthreads 设置 得 太 大 ， 以 免 占用 太 多 的 系统 资源 。 最 终 得 到 
文件 alive.txt。 这 个 程序 还 比较 简陋 ， 有 很 大 的 改进 空间 。 例 如 ， 同 一 网 站 下 息 取 的 代理 服务 
器 也 许 不 会 有 重复 的 情况 ， 但 多 个 网 站 怜 取 的 代理 服务 器 就 有 可 能 重复 。 这 种 情况 可 以 在 程 
序 内 加 上 一 个 去 重 的 函数 。 


Scrapy 疏 虫 实战 四 : 粮 事 百科 


上 节 中 得 到 了 一 个 经 过 验证 的 proxy 文件 。 本 节 将 使 用 得 到 的 代理 来 吟 取 网 站 内 容 ， 目 
标 站 点 就 定 为 一 个 笑话 网 站 粮 事 百科 。 
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5.601 目标 分 析 

粮 事 百科 这 个 站 点 类 似 于 上 节 的 “ 西 刺 代理 ”。 它 必须 指定 一 个 浏览 器 的 headers 才能 
返回 正确 的 数据 。 另 外 上 节 中 的 getProxy 项 目 中 已 经 获取 了 一 些 可 使 用 的 代理 服务 器 ， 不 能 
浪费 掉 。 本 节 将 使 用 代理 来 公 取 粮 事 百科 中 的 笑话 。 

在 浏览 器 中 打开 粮 事 百科 网 站 ， 如 图 5-48 所 示 。 

















GD www.qiushibaike.com/hot/page/3/?s-4900120 


OA JM] wet BH XF WO Gm Bs 
the i STE 





刚才 在 公园 看 到 了 节 孙 俩 ， 孙 子 走 在 节 节 前 面 ， 小 孩子 喝 完 手 里 的 饮料 直接 把 瓶子 碰 





能 这 样 ， 老 师 没 教 你 要 保护 








图 5-48 ”数据 来 源 站 点 


从 图 5-48 中 可 以 看 出 目标 数据 来 源 的 网 址 为 http://www.qiushibaike.com/hot/page/3/?s= 
4900120， 这 里 的 ?s=4900120 应 该 只 是 从 Cookies 里 提取 的 用 户 标识 。 去 除 这 个 尾巴 ， 用 浏览 
器 打开 http://www.qiushibaike.com/hot/page/3/。 页 面 完 全 一 样 ， 没 有 任何 影响 。 

可 以 获取 的 项 有 发 布 者 名 字 、 笑 话 内 容 、 笑 话 图 片 (如果 有 图 片 就 下 载 ) 、 单 击 好 笑 的 
次 数 、 谈 论 的 次 数 。items.py 就 是 这 些 了 。 


5.6.2 ”创建 编辑 Scrapy IE ri 


进入 Scrapy 的 工作 目录 ， 创 建 项 目 名 为 qiushi 的 Scrapy 项 目 ， 通 过 Spider 模版 创建 
qiushiSpider.py 文件 。 执 行 命令 : 

cd 

cd code/scrapy 

scrapy startproject qiushi 

cd qiushi 


scrapy genspider qiushiSpider qiushibaike.com 


首先 要 编辑 的 还 是 items.py，items.py 文件 的 内 容 如 下 : 


1 #-*- coding: utf-8 -*- 
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# Define here the models for your scraped items 
# 
# See documentation in: 


# http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


© 0 - O0 O0 & Q0 NM 


10 

11 class Qiushiltem(scrapy.Item): 

12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 author = scrapy.Field() 

15 content = scrapy.Field() 

16 img = scrapy.Field() 

alui funNum - scrapy.Field() 

18 talkNum - scrapy.Field() 


不 管 后 面 怎么 变化 ， 需 要 添加 什么 功能 ， 在 items.py 这 个 文件 上 是 没有 任何 区 别 的 。 在 
上 节 的 getProxy 项 目 中 ， 为 了 获取 “ 西 刺 代理 ”站 点 上 的 代理 服务 器 ， 在 settings.py 中 添加 
了 USER AGENT 项 ， 给 Scrapy 添加 了 一 个 浏览 器 的 headers。 本 节 的 Scrapy 项 目 不 仅 需 要 
添加 浏览 器 的 headers， 还 要 使 用 proxy， 这 就 涉及 了 Scrapy 中 间 件 。 

Scrapy 项 目 本 身 有 很 多 的 中 间 件 。 这 些 中 间 件 设置 了 很 多 的 环境 。 一 般 最 常见 的 中 间 件 
就 是 下 载 器 中 间 件 。 本 节 项 目 所 需 添 加 headers， 使 用 proxy 都 是 在 这 个 中 间 件 中 修改 。 


5.6.3 Scrapy 项 目 中 间 件 一 一 添加 headers 


在 Scrapy 项 目 中 ， 掌 管 proxy 的 中 间 件 是 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware。 直 接 修改 这 个 中 间 件 ， 不 是 不 可 以 ， 不 过 为 了 一 个 项 目 就 去 修改 整个 
环境 变量 ， 也 太 小 题 大 做 了 。 我 们 完全 可 以 自己 写 个 中 间 件 ， 让 它 运行 ， 然 后 将 Scrapy 默认 
的 中 间 件 关闭 掉 就 可 以 了 。 

先进 入 qiushi 项 目下 的 settgings.py 同 层 目 录 ， 创 建文 件 夹 middlewares， 在 middlewares 
目录 下 创建 _init .py 和 customMiddlewarespy 文件 ， 其 中 _init_.py 的 作用 是 将 整个 
middlewares 目录 当成 一 个 模块 使 用 。customMiddlewares.py 就 是 自 定义 的 中 间 件 。 
customMiddlewares.py 的 内 容 如 下 : 





1 #!/usr/bin/env python 

2 4-*- coding: utf-8 -*- 

3 author  - 'hstking hst_king@hotmail.com' 
4 
5 
6 


from scrapy.contrib.downloadermiddleware.useragent import 
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UserAgentMiddlewar e 


m 

8 class CustomUserAgent (UserAgentMiddleware): 

9 def process request (self,request,spider): 

10 ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like 
Ge cko) Chrome/19.0.1061.1 Safari/536.3" 

11 request.headers.setdefault('User-Agent', ua) 


修改 settings.py， 将 系统 默认 的 中 间 件 serapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware 关闭 ， 用 自己 创建 的 中 间 件 qiushi.middlewares.customMiddlewares. 
CustomUserA gent 代替 。Settings.py 内 容 如 下 : 


$ ->= coding: utf- =*= 
Scrapy settings for qiushi project 


For simplicity, this file contains only the most important settings by 


http://doc.scrapy.org/en/latest/topics/settings.html 


vo 0-005240 MWMHndD 


* 
* 
* 
# default. All the other settings are documented here: 
+ 
* 
+ 


RoR 
"o 


BOT NAME - 'qiushi' 


|o 
wn 


SPIDER_MODULES = ['qiushi.spiders'] 
NEWSPIDER MODULE = 'qiushi.spiders' 


m 
心 


15. 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER AGENT = 'qiushi (+http://www.yourdomain.com) ' 

18 

19 

20 

21 ### user define 

22 DOWNLOADER_MIDDLEWARES = { 


23 'qiushi.middlewares.customMiddlewares.CustomUserAgent': 3, 
24 "scrapy.contrib.downloadermiddleware.useragent .UserAgentMiddleware': None, 
25 | 


因为 改 用 了 自 定义 的 中 间 件 取代 Scrapy 的 中 间 件 ， 所 以 需要 将 Scrapy 的 中 间 件 改 为 
None， 将 其 关闭 。 
编辑 pipelines.py 文件 ，pipelines.py 文件 内 容 如 下 : 


1 # -*- coding: utf-8 -*- 
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# Define your item pipelines here 

# 

# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline. html 


import time 
import urllib.request 
import os 
import codecs 
class QiushiPipeline (object): 
def process item(self, item, spider): 
today = time.strftime('$Y$m$d', time.localtime()) 
fileName = today + 'qiubai.txt' 
imgDir = 'IMG' 
if os.path.isdir(imgDir): 
pass 
else: 
os.mkdir (imgDir) 
with codecs.open(fileName, 'a', ‘utf-8’) as fp: 
fp.write('-'*50 + 'An* JASON 
fp.write("author:\t %s\n" %(item['author'])) 
fp.write("content:\t %s\n" %(item['content'])) 
try: 
imgUrl = item['img'][1] 
except IndexError: 
pass 
else: 
imgName - os.path.basename (imgUrl) 
fp.write("img:\t %s\n" %(imgName) ) 
imgPathName = imgDir + os.sep + imgName 
with open(imgPathName, 'wb') as fp: 
response = urllib.request.urlopen (imgUrl) 
fp.write (response.read()) 
fp.write ("fun:%s\t talk:%s\n" $(item['funNum'],item['talkNum'])) 
fp.write('*'*50 + '\n' + '-'*50 + 'An'*10) 


return item 


最 后 将 QiushiPipeline 添加 到 settings.py 中 去 ， 修 改 后 的 settings.py 内 容 如 下 : 


1 
2 
3 
4 
5 


# -*- coding: utf-8 -*- 


# Scrapy settings for qiushi project 
+ 
# For simplicity, this file contains only the most important settings by 


28 
29 


default. All the other settings are documented here: 


+ 
+ 
# http://doc.scrapy.org/en/latest/topics/settings.html 
+ 


BOT_NAME = 'qiushi' 


SPIDER_MODULES = ['qiushi.spiders'] 
NEWSPIDER_MODULE = 'qiushi.spiders' 


# Crawl responsibly by identifying yourself (and your website) on the User-Agent 
#USER_AGENT = 'qiushi (+http://www.yourdomain.com) ' 


### user define 

DOWNLOADER_MIDDLEWARES = { 
'qiushi.middlewares.customMiddlewares.CustomUserAgent': 3, 
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, 


ITEM PIPELINES = { 
'qiushi.pipelines.QiushiPipeline':10, 
} 


所 有 文件 准备 完毕 了 ， 回 到 qiushi 项 目下 ， 执 行 命令 : 


scrapy crawl qiushiSpider 


ls 


结果 如 图 5-49 所 示 。 





('downloader/request bytes': 30250, 
'downloader/request count': 65, 
'downloader/request method count/GET': 
'downloader/response bytes': 342865, 
'downloader/response count': 65, 
'downloader/response status count/20 
'downloader/response status count/30 
'downloader/response status count/SO. 
'finish reason': 'finished', 
‘finish time': datetime.datetime(2016, 8, 316252), 
‘item scraped count': 363, 
'log count/DEBUG': 446, 
'log count/ERROR': 77, 
'log count/INFO': 7, 
"response received count': 30, 
'scheduler/dequeued': 65, 
'scheduler/dequeued/memory': 65, 
'scheduler/enqueued': 65, 
'scheduler/enqueued/memory': 65, 
'start time': datetime.datetime(2016, 8, 1, 9, 5, 59, 392965)) 
[2016-08-01 17:06:20+0800 [qiushiSpider] INFO: Spider closed (finished) 


5-49 ”数据 保存 结果 


从 最 后 运行 结果 看 来 ， 已 达到 预期 目标 ， 获 取 了 数据 。 自 定义 的 中 间 件 成 功 运行 。 
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5.6.4 Scrapy 项 目 中 间 件 一 一 添加 proxy 


上 一 小 节 中 使 用 自 定 义 的 中 间 件 给 Scrapy 添加 了 浏览 器 的 headers。 本 小 节 将 使 用 自 定 
义 的 中 间 件 给 Scrapy 添加 一 个 proxy。 

Scrapy 默认 环境 下 ，proxy 的 设置 是 由 中 间 件 scrapy.contrib.downloadermiddleware. 
httpproxy.HttpProxyMiddleware 控制 的 。 参 照 上 一 小 节 的 方法 ， 还 是 自 定 义 一 个 中 间 件 。 因 为 
只 使 用 单独 一 个 代理 ， 就 不 再 添加 新 的 文件 了 。 直 接 在 middlewares.customMiddlewares 中 添 
加 一 个 类 就 可 以 了 。 

既然 是 使 用 proxy， 那 得 先 找到 一 个 可 使 用 proxy， 在 上 个 Scrapy 项 目 getProxy 中 已 经 
找到 很 多 了 ， 我 们 在 getProxy 项 目的 最 终 文档 alive.txt 中 随意 挑选 一 个 即 可 。 例 如 : 
114.33.202.73:8118。 











这 个 代理 是 个 临时 的 代理 ， 现 在 有 效 不 代表 将 来 一 直 都 有 效 ， 测 试 时 请 换 一 个 确实 可 用 | 
| Á 的 代理 服务 器 。 








修改 自 定义 的 中 间 件 文档 customMiddlewares.py。 修 改 完毕 后 的 customMiddlewares.py 内 

容 如 下 : 

1 #!/usr/bin/env python 

2 f-t- coding: utf-8 =*= 

3 _author_ = 'hstking hst_king@hotmail.com' 

4 

5 

6 from scrapy.contrib.downloadermiddleware.useragent import 
UserAgentMiddlewar e 

7 

8 class CustomUserAgent (UserAgentMiddleware) : 


9 def process_request (self, request, spider) : 

10 ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like 
Ge cko) Chrome/19.0.1061.1 Safari/536.3" 

11 request .headers.setdefault ('User-Agent', ua) 

12 

13 class CustomProxy (object): 

14 def process_request (self, request, spider) : 

15 request.meta['proxy'] = 'http://114.33.202.73:8118' 


接 下 来 再 修改 settingspy 文件 ， 将 新 添加 的 中 间 件 CustomProxy 添加 到 
DOWNLOADER MIDDLEWARES 中 去 。 这 里 与 之 前 的 CustomUserAgent 不 同 的 是 ， 
CustomUserAgent 需要 禁止 系统 的 UserAgentMiddleware， 而 CustomProxy 则 需要 在 系统 的 
HttpProxyMiddleware 之 前 执行 。 修 改 完毕 的 settings.py 内 容 如 下 : 


1 # -*- coding: utf-8 -*- 
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# Scrapy settings for qiushi project 

* 

# For simplicity, this file contains only the most important settings by 
# default. All the other settings are documented here: 

# 

http://doc.scrapy.org/en/latest/topics/settings.html 
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* 
* 


RR 
HO 


BOT NAME = 'qiushi' 


RoR 
wn 


SPIDER_MODULES = ['qiushi.spiders'] 
NEWSPIDER_MODULE = 'qiushi.spiders' 


BRR 
as 


16 4 Crawl responsibly by identifying yourself (and your website) on the 


User-Agent 


17 #USER_AGENT = 'qiushi (+http://www.yourdomain.com) ' 
18 

19 

20 

21 ### user define 

22 DOWNLOADER_MIDDLEWARES = { 


23 'qiushi.middlewares.customMiddlewares.CustomProxy': 10, 

24 'qiushi.middlewares.customMiddlewares.CustomUserAgent': 30, 

25 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 
None, 

26 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 
20 

27 ) 

28 


29 ITEM PIPELINES = { 
30 'qiushi.pipelines.QiushiPipeline':10, 
Sur $ 


最 后 回 到 Scrapy HA qiushi 的 目录 下 ， 执 行 命令 : 


Scrapy crawl qiushiSpider 


执行 的 结果 如 图 5-50 所 示 。 
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|king@debian:~/code/crawler/scrapyProject/qiushi$ scrapy crawl qiushiSpider 
2016-08-01 22:57:01+0800 [scrapy] INFO: Scrapy 0.24.2 started (bot: qiushi) 
2016-08-01 22:57:01+0800 [scrapy] INFO: Optional features available: ssl, http11 
, boto, django 

2016-08-01 22:57:01+0800 [scrapy] INFO: Overridden settings: ('NEWSPIDER MODULE’ 
: 'qiushi.spiders', 'SPIDER MODULES': ['qiushi.spiders'], 'BOT NAME': 'qiushi') 
2016-08-01 22:57:01+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetCons 
le, CloseSpider, WebService, CoreStats, SpiderState 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled downloader middlewares: CustomEz 
oxy, CustomUseragenr, HttpAuthMiddleware, DownloadTimecutMiddleware, Retrymadie 
ware, DefaultheadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware 
, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderSt| | 
ats S 
2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid| 
evare, Orfeiveiddleware, RefererMiddieware, UrlLengehMiddlewere, Depthiiiddlew| 
are 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled item pipelines: QiushiPipeline 
2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Spider opened 

2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Crawled 0 pages (at 0 pages/min), 
scraped 0 items (at 0 items/min) 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
^C2016-08-01 22:57:04+0800 [scrapy] INFO: Received SIGINT, shutting down gracefu v 


图 5-50 运行 中 间 件 
从 图 5-50 中 可 以 看 出 自 定义 的 两 个 中 间 件 都 已 经 运行 了 。 





5.7 Scrapy 把 申 实 战 五 : 把 虫 攻防 


对 于 一 般 用 户 而 言 ， 网 络 疏 虫 是 个 好 工具 ， 它 可 以 方便 地 从 网 站 上 获取 自己 想 要 的 信 
息 。 可 对 于 网 站 而 言 ， 网 络 爬 虫 占用 了 太 多 的 资源 ， 也 没 可 能 从 这 些 爬 虫 获取 点 击 量 ， 增 加 
广告 收入 。 据 有 关 调 查 研究 证 明 ， 网 络 上 超过 60% 以 上 的 访问 量 都 是 息 虫 造成 的 ， 也 难怪 网 
站 方 对 网 络 息 虫 恨 之 入 骨 ，“ 杀 ”之 而 后 快 了 。 

网 站 方 采 取 种 种 措施 拒绝 网 络 爬 虫 的 访问 ， 而 网 络 高 手 们 则 毫 不 示弱 ， 改 进 网 络 爬 虫 ， 
赋予 它 更 强 的 功能 、 更 快 的 速度 ， 以 及 更 隐蔽 的 手段 。 在 这 场 朴 虫 与 反 怜 虫 的 战争 中 ， 双 方 
的 比分 交 蔡 领先 ， 最 终 谁 会 赢得 胜利 ， 大 家 将 拭目以待 。 


5.7.1 创建 一 般 怜 虫 


我 们 先 写 一 个 小 息 虫 程序 ， 假 设 网 站 方 的 各 种 限制 ， 然 后 再 来 看 看 如 何 破解 网 站 方 的 限 
制 ， 让 大 家 自由 地 使 用 息 虫 工具。 网 站 限制 的 息 虫 肯定 不 包括 我 们 这 种 只 有 几 次 访问 的 扑 
虫 。 一 般 来 说 ， 小 于 100 次 访问 的 朴 虫 都 无 须 为 此 担心 ， 这 个 的 爬虫 纯粹 是 做 演示 。 

VME A AA BL, EH Scrapy 疏 虫 来 朴 取 最 近 更 新 的 美剧 ， 来 源 网 页 是 
http://www.meijutt.con/new100.html. BEA Scrapy 工作 目录 ， 创 建 meiju100 项 目 。 执 行 命令 : 

cd 

cd code/scrapy 


scrapy startproject meijul00 
cd meijul00 
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scrapy genspider meijul00Spider meijutt.com 
tree meijul00 


执行 的 结果 如 图 5-51 所 示 。 





EP king@debian8: ~/code/scrapy/meiju100 = n x 





kingédebian8:-/code/scrapy/meijul00$ tree meiju 
neiju100/ 
init__.py 
[— items.py 
|— niddiewares.py 
|— pipe 
= 








settings.py 
spiders 





L- meiju 


1 directory, 7 files 
kingêdebian8:~/code/scrapy/meiju100$ lj 





5-51 tree meijul00 Ji H 
修改 后 的 items.py 的 内 容 如 下 : 
1 $ =*= coding: utf=0 =*= 
# Define here the models for your scraped items 
+ 


# See documentation in: 


# http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


(0 OI 00 (QN 


PR 
RO 


class Meijul00Item(scrapy.Item) : 


m 
N 


# define the fields for your item here like: 


m 
w 


# name = scrapy.Field() 


m 
心 


storyName = scrapy.Field() 


m 
a 


storyState = scrapy.Field() 
16 tvStation = scrapy.Field() 
17 updateTime = scrapy.Field() 


修改 后 的 meijul00Spiderpy 内 容 如 下 : 


# -*- coding: utf-8 -*- 
import scrapy 
from meijul00.items import Meijul00Item 


class Meijul00spiderSpider (scrapy.Spider): 
name = 'meijul00Spider' 


OID 0 BWN PP 


allowed domains = ['meijutt.com'] 
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9 start urls = ['http://meijutt.com/new100.html'] 


10 

Ibn def parse(self, response): 

12 subSelector = response.xpath('//li/div[Gclass-"lasted-num fn- 
Toft) 

13 items = [] 

14 for sub in subSelector: 

15 item = Meijul00Item() 

16 item['storyName'] = sub.xpath('../h5/a/text()').extract() [0] 

T7: try: 

18 item['storyState'] = sub.xpath('../span[@class="statel 
newl00statel"]/font/text ()') .extract () [0] 

19 except IndexError as e: 

20 item['storyState'] = sub.xpath('../span[@class="statel 
newl00state1"]/text()').extract() [0] 

2 item['tvStation'] = 
sub.xpath('../span[@class="mjtv"]/text()') .extract () 

9o try: 

23 item['updateTime'] = sub.xpath('../div[@class="lasted- 
time newl00time fn-right"]/font/text()').extract() [0] 

24 except IndexError as e: 

25 item['updateTime'] = sub.xpath('../div[@class="lasted- 
time newl00time fn-right"]/text()').extract() [0] 

26 items .append (item) 

27 return items 


修改 后 的 pipelines.py 内 容 如 下 : 

T $ oo coding utf- == 

# Define your item pipelines here 
+ 


# Don't forget to add your pipeline to the ITEM_PIPELINES setting 
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


import time 


wow OIF U A QN 


m 
o 


class Meijul00Pipeline (object): 


m 
m 


def process item(self, item, spider): 


m 
N 


today = time.strftime('%Y%m%d', time.localtime()) 
fileName = today + 'meiju.txt' 


RoR 
a w 


with open (fileName, 'a') as fp: 


m 
a 


fp.write("$s Nt" $(item['storyName'].encode('utf8'))) 
fp.write("$s Nt" $(item['storyState'].encode('utf8'))) 


m 
oO 
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17 if len(item['tvStation']) == 0: 


18 fp.write("unknow \t") 

19 else: 

20 fp.write("%s Nt" $(item['tvStation'][0]) .encode('utf8"')) 
21 

22 return item 


修改 后 的 settings.py 内 容 如 下 : 


1 $ -*- coding: utf-8 =*= 

2 

3 # Scrapy settings for meijul00 project 
4 

5 


# For simplicity, this file contains only the most important settings 


by 

6 # default. All the other settings are documented here: 

7 4 

8 # http://doc.scrapy.org/en/latest/topics/settings.html 

9 4 

10 

11 BOT NAME = 'meijul100' 

12 

13 SPIDER MODULES = ['meijul00.spiders'] 

14 NEWSPIDER MODULE = 'meijul00.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 $USER AGENT = 'meijul00 (*http://www.yourdomain.com)' 

18 

19 


20 ### user define 

21 ITEM PIPELINES - ( 

22 'meijul00.pipelines.Meijul00Pipeline':10 
238 


KPI d Ze E T. pl meiju 项 目的 主 目录 下 ， 执 行 命令 : 


scrapy crawl meijul00Spider 
cat *.txt 


执行 结果 如 图 5-52 所 示 。 
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sche 
| 'scheduler/enqueued/memo: 








2018, 1, 31, 7, 21, 19, 307477)) 
gine] INFO: Spider closed (finished| 
s 


at 20180131meiju.txt 


NBC 2018-1-31 
-31 






$ISHEBRBEBR 
Ess |e 
WES ws 
LI NEU 


中 
* 
* 
s 
m 
suum 
emim* 


m x- 
BEcW 
sense 
IHE ME 
Bt Fe 








图 5-52 meiju MAAR 
MAZITI. FARKIN MG du AA SZ JME d OR 


5.7.2 ”封锁 间隔 时 间 破 解 

Scrapy 在 两 次 请 求 之 间 的 时 间 设 置 是 DOWNLOAD DELAY. lu 4525 EI nh (5 D] 
素 ， 这 个 值 当然 是 越 小 越 好 。 如 果 把 DOWNLOAD DELAY 设置 成 了 0.1， 也 就 是 每 0.1 秒 
向 网 站 请 求 一 次 网 页 。 网 站 管理 员 只 要 不 睹 ， 稍 微 过 滤 一 下 日 志 ， 必 定 会 为 怜 虫 使 用 者 如 此 
侮辱 他 的 智商 而 愤恨 不 已 。 

如 果 对 扑 虫 的 结果 需求 不 是 那么 急 ， 也 希望 “ 打 枪 的 不 要 ， 悄 悄 地 进 村 ”， 那 还 是 把 这 
一 项 的 值 设置 得 稍微 大 一 点 吧 。 在 settings.py 中 找到 这 一 行 ， 取消 前 面 的 注释 符号 ， 并 将 至 
修改 一 下 (在 settings.py 的 第 30 行 )。 

DOWNLOAD DELAY = 5 

这 样 每 SP UI RSSR LAGE AS GEIR T o RAPE AERA), AULA 
这 个 频率 的 请 求 是 很 难 被 发 现 的 。 


5.7.3 ”封锁 Cookies 破解 

众所周知 ， 网 站 是 通过 Cookies 来 确定 用 户 身份 的 。Scrapy JE tif fe dcs EE E RH [8] — 
个 Cookies 发 送 请 求 。 这 种 做 法 和 把 DOWNLOAD DELAY 设置 成 0.1 没什么 区 别 。 

不 过 要 破解 这 种 原理 的 反 疏 虫 也 很 简单 ， 直 接 禁 用 Cookies 就 可 以 了 。 在 settings.py X 
件 中 找到 这 一 行 ， 取 消 前 面 的 注释 〈 在 settings.py 的 第 36 行 ) 。 


COOKIES_ENABLED = False 
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5.7.4 封锁 User-Agent 破解 

User-Agent 是 浏览 器 的 身份 标识 。 网 站 就 是 通过 User-Agent 来 确定 浏览 器 类 型 的 。 有 很 
多 的 网 站 都 会 拒绝 不 符合 一 定 标准 的 User-Agent 请 求 网 页 。 在 前 面 的 Scrapy 项 目 中 曾 冒 充 浏 
览 器 访问 网 站 。 但 如 果 网 站 将 频繁 访问 网 站 的 User-Agent 作为 仆 虫 的 标志 ， 然 后 将 其 拉 入 黑 
名 单 又 该 怎么 办 呢 ? 

这 个 也 很 简单 。 可 以 准备 一 大 堆 的 User-Agent， 然 后 随机 挑选 一 个 使 用 ， 使 用 一 次 就 更 
换 ， 这 样 不 就 解决 了 。 挑 选 几 个 合适 的 浏览 器 User-Agent 放 到 资源 文件 resource.py 中 待 用 。 
然后 将 resource.py 复制 到 settings.py 的 同 级 目录 中 去 ， 如 图 5-53 所 示 。 


2 


kingédebian8:-/code/scrapy/meiju100/me 

| init .py middlewares.py resource.py spiders 
s.py S 
crapy/meijul00/1 0$ tree 








图 5-53 ”资源 文件 resource.py 


resource.py 文件 内 容 如 下 : 


1 #!/usr/bin/env python3 

2 #-*- coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 UserAgents = [ 

6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 

AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows 
NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; 
Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

12  "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
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1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14 "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

1s "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

17  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18 "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6", 

19 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

22] 


Scrapy 在 创建 项 目 时 已 经 创建 好 了 一 个 middlewares.py 文件 。 这 个 在 刚才 运行 scrapy 
crawl meiju100Spider 时 ，middlewares.py 并 没有 起 作用 。 现 在 需要 修改 User-Agent， 可 以 直 
接 在 middlewares.py 中 新 建 一 个 新 类 (重新 建立 一 个 新 文件 也 可 以 , 但 UserAgentMiddleware 
本 身 就 属于 middlewares 的 ， 放 到 一 起 更 加 方便 而 已 ) 。 这 个 新 类 继承 与 
UserAgentMiddleware 类 。 然 后 在 settings.py 中 设置 一 下 ， 让 这 个 新 类 替代 掉 原 来 的 
UserAgentMiddlerware 类 。 修 改 middlewares.py 如 下 : 

1 # -*- coding: utf-8 -*- 


# Define here the models for your spider middleware 
+ 
# See documentation in: 


# https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


from scrapy import signals 


(0 0 - TRH QN 


from meijul00.resource import UserAgents 


m 
o 


from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware 


11 import random 

12 

13 

14 class Meijul00SpiderMiddleware (object): 

15 # Not all methods need to be defined. If a method is not defined, 
16 # scrapy acts as if the spider middleware does not modify the 

Ta # passed objects. 
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18 
19 
20 
21 
22 
23 


@classmethod 

def from_crawler(cls, crawler): 
# This method is used by Scrapy to create your spiders. 
s = cls() 


crawler.signals.connect (s.spider_opened, 


signal=signals.spider_opened) 


24 
25 
26 
27 
28 
29 
30 
31 
32 
33) 
34 
35) 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 


return s 


def process_spider_input (self, response, spider): 
# Called for each response that goes through the spider 


# middleware and into the spider. 


# Should return None or raise an exception. 


return None 


def process_spider_output (self, response, result, spider): 
# Called with the results returned from the Spider, after 
# it has processed the response. 


# Must return an iterable of Request, dict or Item objects. 
for i in result: 


yield i 


def process_spider_exception (self, response, exception, spider): 
# Called when a spider or process_spider_input() method 
# (from other spider middleware) raises an exception. 


# Should return either None or an iterable of Response, dict 
# or Item objects. 
pass 


def process_start_requests (self, start_requests, spider): 
# Called with the start requests of the spider, and works 
# similarly to the process spider output() method, except 
# that it doesn’t have a response associated. 


# Must return only requests (not items). 
for r in start_requests: 


yield r 


def spider_opened (self, spider): 
spider.logger.info('Spider opened: %s' % spider.name) 


209 


60 


61 

62 class Meijul00DownloaderMiddleware (object) : 

63 # Not all methods need to be defined. If a method is not defined, 
64 # scrapy acts as if the downloader middleware does not modify the 
65 # passed objects. 

66 

67 @classmethod 

68 def from_crawler(cls, crawler): 

69 # This method is used by Scrapy to create your spiders. 

70 s = cls() 

irat crawler.signals.connect(s.spider opened, 


signal=signals.spider opened) 


72 return s 

qs 

74 def process request(self, request, spider): 

75 # Called for each request that goes through the downloader 
76 # middleware. 

77 

78 # Must either: 

uS * - return None: continue processing this request 

80 # - or return a Response object 

81 # - or return a Request object 

82 # - or raise IgnoreRequest: process exception() methods of 
83 * installed downloader middleware will be called 

84 return None 

85 

86 def process response(self, request, response, spider): 

87 # Called with the response returned from the downloader. 
88 

89 # Must either; 

90 * - return a Response object 

91 * - return a Request object 

92 * - or raise IgnoreRequest 

93 return response 

94 

95 def process_exception (self, request, exception, spider): 

96 # Called when a download handler or a process_request () 

97 # (from other downloader middleware) raises an exception. 
98 

29 # Must either: 

100 * - return None: continue processing this exception 

101 * - return a Response object: stops process exception() chain 
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102 # - return a Request object: stops process exception() chain 


103 pass 

104 

105 def spider opened(self, spider): 

106 spider.logger.info('Spider opened: $s' $ spider.name) 
107 


108 class CustomUserAgentMiddleware (UserAgentMiddleware): 
109 def — init (self, user agent-'Scrapy'): 

110 ua = random.choice (UserAgents) 

111 self.user agent = ua 


在 这 个 文件 中 ， 只 有 第 9~11 行 和 108-111 行 是 后 来 添加 的 ， 中 间 的 部 分 是 系统 默认 生成 
的 。 实 际 上 中 间 的 部 分 暂时 并 没有 用 上 。 

新 类 CustomUserAgentMiddleware 已 经 创建 好 了 。 现 在 到 settings.py 中 修改 一 下 ， 用 
CustomUserAgentMiddleware 来 蔡 代 UserAgentMiddleware o 在 settings.py 中 找到 
DOWNLOADER_MIDDLEWARES 这 个 选项 ， 如 图 5-54 所 示 。 








t-Language': 'en', ^ 


Ý Enable or disable spider middlewares 
$ See https://doc.scrapy.org/en/latest/topics/spider-middleware.html 
#SPIDER_MIDDLEWARES = { 

' 'meijul00.middlewares.Meijul00SpiderMiddleware': 543, 

"n 


# Enable or disable downloader middlewares 









4 Enable or disable extensions 
4 See hi / doc.scrapy.org/en/latest/topics/extensions.html 
EXTENSIONS = 1 

' scrapy.extensions.telnet.TelnetConsole': None, 

" 


ü 











66,0-1 628 v 





图 5-54 修改 settings.py 








im 这 里 将 UserAgentMiddleware 默认 是 自动 运行 的 ， 现 在 目的 是 用 

CustomUserAgentMiddleware 来 替代 它 ， 需 要 将 它 关 闭 掉 。 所 以 将 UserAgentMiddleware 

| 的 值 设 置 成 None。CustomUserAgentMiddleware 设置 成 542， 这 个 数 是 启动 的 顺序 ， 并 
不 是 随便 设置 的 ， 是 依据 它 的 被 蔡 代 类 的 启动 顺序 来 设置 的 。 








保存 关闭 文件 ， 回 到 项 目下 执行 命令 : 


scrapy crawl meijul00Spider 


结果 是 没 问题 的 ， 现 在 来 看 看 Spider 的 日 志 ， 如 图 5-55 所 示 。 
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上 kingGdebian&: ~/code/scrapy/meiju100 = xm x 


'scrapy.extensions.logstats.LogStats'] ^ 
2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled downloader middlewares: 
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 

. Ith ltHeadersMiddleware', 

neijulo tomUserAgentMiddlewar 

"scrap -retry. 
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 
'scrapy.downloadermiddlewares.stats.DownloaderStats'] 

2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled spider middlewares: 
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 
'scrapy.spidermiddlewares.referer.RefererMiddleware', 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 
'scrapy.spidermiddlewares.depth.DepthMiddleware'] 

2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled item pipelines: 
['meijul00.pipelines.Meijul00Pipeline'] 

2018-01-31 20:41:28 [scrapy.core.engine] INFO: Spider opened 

[2018-01-31 20:41:28 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag 
les/min), scraped 0 items (at 0 items/min) { 


























图 5-55 spider 中 间 件 CustomUserAgentMiddleware 


设置 的 中 间 件 CustomUserAgentMiddleware 已 经 起 作用 了 。 


5.7.5 封锁 IP 破解 


在 反扑 虫 中 ， 最 容易 被 发 觉 的 实际 上 是 IP。 同 一 IP 短 时 间 内 访问 同一 站 点 ， 如 果 数 目 
D, 管理 员 可 能 会 以 为 是 网 吧 或 者 大 型 的 局 域 网 在 访问 而 放 你 一 马 。 数 目 多 了 ， 那 肯定 是 候 
虫 了 。 个 人 用 户 可 以 用 重启 猫 的 方法 换 IP〈 这 种 方法 也 不 算 太 靠 谱 ， 不 可 能 封锁 一 次 就 重启 
一 次 猎 吧 〉 ， 专 线 用 户 总 不 能 让 ISP 给 换 专线 吧 ， 因 此 最 方便 的 方法 就 是 使 用 代理 了 。 

之 前 的 项 目 中 曾 使 用 过 代理 候 取 网 站 ， 本 节 将 准备 一 个 代理 池 ， 从 中 随机 地 选取 一 个 代 
理 使 用 。 疏 取 一 次 ， 选 取 一 个 不 同 的 代理 。 进 入 之 前 创建 的 middlewares 目录 中 ， 在 资源 文 
件 resource.py 中 加 入 一 个 IP 池 ， 也 就 是 一 个 代理 服务 器 的 列表 。 在 前 面 的 项 目 中 已 经 获取 
很 多 免费 的 代理 服务 器 了 ， 请 随意 取 用 ， 不 用 客气 。 

修改 后 的 resource.py 的 内 容 如 下 : 

#!/usr/bin/env python 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 
4 

5 





m 


UserAgents - [ 

6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 
AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows 
NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
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Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; 
Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

32 "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14 "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

15 "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

ali "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18 "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fcl0 Kazehakase/0.5.6", 

19  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

epu 

23 

24 PROXIES = [ 

258 http:// 110: TS d. 41:8123 57 

26 'http://110.73.42.145:8123', 

27 'http://182.89.3.95:8123', 

28 'http://39.1.40.234:8080', 

29 'http://39.1.37.165:8080' 

30 ] # 这 里 还 可 以 添加 更 多 的 代理 








| PROXIES 里 的 代理 是 从 网 络 上 抓 取 的 代理 ， 具 有 时 效 性 ， 使 用 时 请 自行 设置 可 用 的 | 
| 代理 。 











修改 中 间 件 文件 middlewares.py 中 Meijul 00DownloaderMiddleware 类 的 process request 
函数 ， 如 图 5-56 所 示 。 
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Python WERKA E 2 版 ) 


|e king@debian&: -/code/scrapy/meiju100 
0 ider.logger.info('Spider opened: ts‘ % spider.name) 
gg: IP: P: 








2 Meijul00DownloaderMiddleware (object): 
Not all methods need to be defined. If a method is not defined, 
scrapy acts as if the downloader middleware does not modify the 
passed objects. 








assmethod 

from crawler(cls, crawler): 

# This method is used by Scrapy to create your spiders. 

s = cls() 

crawler.signals.connect(s.spider opened, signal=signals.spider_opened) 
turn s 








process request(self, request, spider): 
¥ Called for each request that goes through the downloader 
4 middleware. 








4 Must either: 

4$ - return None: continue processing this request 
4 - or return a Response object 

4 - or return a Request object 

# - or raise IgnoreRequest: process exception() methods of 
# installed downloader middleware will be called 
#import pdb 

#pdb, set_trace() 
proxy = random.choice (PROXIES) 
request.meta['proxy'] = proxy 
érequest.meta['proxy'] = 'http://192.168.1.99:1080' 
return None 











ef process response(self, request, response, spider): 
# Called with the response returned from the downloader. 





图 5-56 ”添加 代理 服务 


修改 settings.py 文件 ， 将 Meiju100DownloaderMiddleware 添加 到 启动 的 中 间 件 去 ， 如 图 
5-57 所 示 。 




















上 king@debian8: -/code/scrapy/meiju100/meiju100 
1 #4) a 
# Enable or disable downloader middlewares 
4 # See https: //doc.scrapy.org/en/latest/topics/downloader-middleware.html 
DOWNLOADER_MIDDLEWARES = ( 

6 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 
meiiulO0.middlewares.CustomUserAgentMiddlewar: 542, 
meijul00.middlewares.Meijul00DownloaderMiddlewar: 543, 

# Enable or disable extensions 

62 4 See https://doc.scrapy.org/en/latest/topics/extensions.html 

63 MEXTENSIONS = { 

4 'scrapy.extensions.telnet.TelnetConsole': None, 

54 

67 # Configure item pipelines 

4 See https: //doc.scrapy.org/en/latest/topics/item-pipeline.html 

69 ITEM PIPELINES = { 

*meijul00.pipelines.Meijul00Pipeline': 300, 

1) 

# Enable and configure the AutoThrottle extension (disabled by default) B 
58,1 72$ v 








图 5-57 启动 中 间 件 Meijul 00DownloaderMiddleware 


保存 文件 ， 回 到 项 目下 执行 命令 : 


scrapy crawl meijul00Spider 


查看 Scrapy 的 日 志 ， 如 图 5-58 所 示 。 
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a King@debians: - /code/scrapy/meijut 


'scrapy.extensions.logstats.LogStats'] 

[2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled downloader middlewares: 
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 
'neijul00.middlewares.CustomUserAgentMiddleware', 
'meijul00.middlewares.Meijul00DownloaderMiddleware', 
"scrapy.downloadermiddlewares.retry.RetryMiddleware', 
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 
'scrapy.downloadermiddlewares.stats.DownloaderStats'] 

2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled spider middlewares: 
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 
'scrapy.spidermiddlewares.referer.RefererMiddleware', 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 
'scrapy.spidermiddlewares.depth.DepthMiddleware'] 

[2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled item pipelines: 
['meijul00.pipelines.Meijul00Pipeline’] 

2018-01-31 21:08:32 [scrapy.core.engine] INFO: Spider opened 

[2018-01-31 21:08:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag v 

















5-58 Spider 中 间 件 Meijul00DownloaderMiddleware 
程序 运行 符合 预期 设计 。Scrapy 就 可 以 随机 地 使 用 代理 池 中 的 代理 服务 器 了 。 


实际 反 仆 虫 的 方法 远 不 止 这 一 些 ， 只 不 过 个 人 用 户 掌 握 这 些 也 够 用 了 。 个 人 用 户 动 则 成 
千 上 万 的 网 页 息 取 毕 况 是 少数 。 


5.8 本 章 小 结 


本 章 详细 介绍 了 Scrapy 疏 虫 框架 的 使 用 ， 由 易 到 难 演 示 了 Scrapy ME He MEHR A vi fit 
程 ， 并 通过 息 虫 与 反扑 忠 的 攻守 过 程 ， 让 读者 一 帘 Scrapy 中 间 件 的 使 用 方法 。 从 使 用 的 难度 
来 说 ，Scrapy 可 以 算得 上 最 简单 的 仆 虫 了 ， 简 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 对 于 特 
殊 息 虫 的 特殊 要 求 也 能 很 好 支持 。 
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上 一 章节 讲解 了 Python (MER HES® Scrapy。 本 章 将 详细 讲解 另 一 个 Python Jf& 
Beautiful Soups + Scrapy 不 同 的 是 Beautiful Soup 并 不 是 一 个 框架 ， 而 是 一 个 模块 。 因 此 ， 
Beautiful Soup 不 能 再 做 填空 题 了 ， 只 能 从 头 到 尾 地 写作 文 了 。 

Beautiful Soup 的 4.4.6 版 本 一 般 被 简称 为 bs4 。bs4 同时 支持 Python 2 和 Python 3, 
bs4 在 网 上 的 教程 不 多 ， 好 不 容易 找到 几 个 ， 内 容 还 都 是 重复 的 。 本 章 内 容 主 要 参考 bs4 
的 官网 (网 址 为 http://beautifulsoup.readthedocs.io/zh_CN/latest/) 教程 。 实 际 上 也 没有 什 
么 很 难 的 地 方 ， 与 Scrapy 相 比 ， 除 了 选择 过 滤 有 所 不 同 外 ，Beautiful Soup 就 是 一 个 普通 
的 Python 程序 。 


6. 1 安装 Beautiful Soup 环境 


bs4 并 不 是 软件 ， 只 是 一 个 第 三 方 的 模块 。 既 然 是 模块 ， 那 安装 起 来 就 比较 简单 了 。 前 
面 说 的 pip. easy install 都 可 以 〈 推 荐 使 用 pip) . 


6.1.1 Windows 下 安装 Beautiful Soup 


在 Windows 下 安装 Beautiful Soup 最 简单 的 方法 还 是 使 用 pip 安装 。 打 开 cmd.exe， 执 行 
命令 : 


pip install beautifulsoup4 


执行 结果 如 图 6-1 所 示 。 


: Windows \system32}pip install beaut ifulsoup4 
ollecting beaut ifulsoup4 

Using cached https://pypi-doubanio.com/packages/9e/d4/16f 46eScfac?73e22787237b 
cdSibbf feafGa576bBa847ec abi Shd7ace/heaut ifulsoup4—4.6 .8-py3-none-any.whl 
Installing collected packages: beautifulsoup4 
Successfully installed beautifulsoup4-4.6.8 





(C:\Windows \system32>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 86:54:40) [MSC v.1908 64 bit CAMD64>] 


“credits” or “license” for more information. 

















图 6-1 Windows 安装 bs4 








da bs4 在 Windows 中 安装 时 也 需要 管理 员 权限 。 } 
bs4 已 安装 到 Windows 中 ， 可 以 直接 使 用 了 o 








6.1.2 Linux 下 安装 Beautiful Soup 


Linux 中 安装 还 是 借助 于 Debian 的 数据 库 ， 以 便于 管理 。 在 终端 中 以 root 用 户 〈 如 果 普 
通用 户 有 权限 ， 也 可 以 使 用 sudo 命令 安装 ) 执行 命令 : 


apt-get install python3-bs4 


执行 结果 如 图 6-2 所 示 。 


SP king@debians: ~ 


root@debian8: /home/king# [apt-get install python3-bs4 

正在 读 取 软件 包 列表 ... 完 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状 态 信息 ... 完成 

下 列 软件 包 是 自动 安装 的 并 且 现 在 不 需要 了 : 
libasni-8-heimdal libgssapi3-heimdal libhcrypto4-heimdal 
libheimbasel-heimdal libheimnt1m0-heimdal libhx509-5-heimdal 
libkrbS-26-heimdal librokenl8-heimdal 1ibwind0-heimdal 

使 用 ‘apt-get autoremove X 89 RE (Èf). 

将 会 安装 下 列 客 外 的 软件 包 : 
python3-lxml 





建议 安装 的 软件 包 : 
python3-1xm1-dbg 
下 列 【 新 】 软 件 包 将 被 安装 : 
python3-bs4 python3-lxml 
ae 0 个 软件 包 ， 新 安装 了 2 CKAN, KER 0 个 软件 包 ， 有 139 个 软件 包 未 被 升 





6-2 Linux 安装 bs4 
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基于 Debian 一 贯 的 保守 策略 ，apt-get 安装 的 并 不 是 最 新 版 本 ， 而 是 目前 最 稳定 的 版 本 
4.3.2。 


6.1.3 ”最 强大 的 IDE 一 一 Eclipse 


Python 环境 下 有 很 多 优秀 的 IDE， 如 Eclipse, Komodo, Sublime, Pycharm, vim, 
Emacs 等 ， 其 中 vim 和 Emacs 虽然 是 跨 平台 的 ， 但 配置 复杂 ， 而 且 界面 也 比较 简陋 ， 不 符合 
美学 原则 。Pycharm、Komodo 在 编译 Python 时 还 不 错 。 但 笔者 更 希望 使 用 一 款 能 包 打 天 下 
的 兼容 所 有 语言 的 IDE， 而 Eclipse 不 负 众望 ， 大 而 全 ， 配 合 插件 后 无 所 不 包 ， 无 须 安装 到 系 
统 ， 可 直接 使 用 。 最 重要 的 是 Eclipse 免费 啊 ， 让 人 既 没有 使 用 盗版 的 负 次 感 ， 也 能 安然 享受 
全 部 的 服务 。Eclipse 是 跨 平台 的 IDE， 能 在 所 有 系统 下 运行 。 本 章 中 所 有 的 程序 如 不 特殊 注 
明 都 将 在 Windows 下 运行 。 

1. 安装 Eclipse 


打开 Eclipse 的 官网 下 载 页 面 http://www.eclipse.org/downloads/， 直 接 单 击 下 载 按 钮 ， 如 
图 6-3 所 示 。 









> QC Dwww.eclipse.org/downloads/ 


EME 


Download Eclipse Technology that is 
right for you 








图 6-3 官网 下 载 Eclipse 


网 站 会 根据 访问 站 点 的 系统 (从 访问 者 的 headers 就 可 以 得 出 操作 系统 ) 推荐 安装 程 
序 。 本 次 下 载 网 站 推荐 的 是 eclipse-inst-win64.exe (前 面 说 过 Eclipse 无 须 安装 ， 是 绿色 程序 
并 非 笔 误 。 这 个 所 谓 的 安装 程序 基本 就 是 个 解压 缩 文 件 ) 。 左 键 双击 安装 程序 ， 要 求 选择 
Eclipse 的 版 本 ， 如 图 6-4 所 示 。 
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eclipseinstaller scons 


se IDE for Java Developers 


induding a Java! 


Edlipse IDE for Java EE Developers 


Tools for Java developers creating Java EE and Web applications. including a Java 
IDE tools for java EE. JPA. ISF. Mylyn. EGR and others. 


Eclipse IDE for C/C++ Developers 


An IDE for C/C++ developers with Mylyn integration. 


Eclipse IDE for JavaScript and Web Developers 


The essential tools for any javaScript developer, including JavaScript language 
support. Git cient, Mylyn and editors for JavaScript, HTML CSS and XML. 


Eclipse IDE for PHP Developers 


The essential tools for any PHP developer. including PHP language support. Git 
dient. Mylyn and editors for JavaScript. HTML. CSS and XML. 





6-4 选择 Eclipse 版 本 


单 击 Eclipse IDE for java Developers 就 可 以 了 。 因 为 是 for java， 所 以 还 得 下 载 java 依赖 
包 。 如 果 网 速 给 力 ， 用 不 了 几 分 钟 就 可 以 下 载 完 毕 。 下 载 完毕 后 ， 安 装 程序 要 求 选 择 安装 位 


置 ， 如 图 6-5 所 示 。 





eclipseinstaller ,. 


- Eclipse IDE for Eclipse Committers 


Package suited for development of Ecipse tself at Eclipse. 


aaa = 


¥ create start menu entry 


VY create desktop shortcut 


$ INSTALL 


< BAck 





6-5 选择 安装 位 置 


填 入 合适 的 安装 位 置 后 ， 单 击 INSTALL 按钮 ， 稍 待 片刻 Eclipse 就 安装 完毕 。 双 击 桌面 


上 的 Eclipse 图 标 运行 Eclipse。 首 次 运行 时 会 提示 选择 工作 目录 ， 如 图 6-6 所 示 。 
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Select a directory as workspace 
Eclipse uses the workspace directory to store its preferences and development artifacts. 





Workspace: [CAUsersWing Workspace | Browse... 


(Use this as the default and do not ask again 





图 6-6 选择 工作 目录 
填 入 Eclipse 的 工作 目录 ， 单 击 OK 按钮 ，Eclipse 界面 如 图 6-7 所 示 。 





File Edit Navigate Search Project Fun Window Help 





4 | @ Welkome it 


Mem aclines | 


» Get an overview ofthe features 
Review the IDE's most fiercely 
contested preferences 

Go through tori 

Try au me samples 


Git repository What's Ne 
Find out what is new 








d sting p s 
Mifòrt existing Eclipse projects from 
the filesystem or archive 





























图 6-7 Eclipse 界面 
Eclipse 安装 完毕 ， 下 一 步 将 安装 Eclipse 的 Python 插件 Pydev。 
2 . 安装 Pydev 插件 
在 Eclipse 的 菜单 上 单 击 Help | Install New Software 选项 ， 如 图 6-8 所 示 。 


220 












Welcome 


Help Contents 
j^ Search 
Show Contextual Help 


Show Active Keybindings.... Ctrl+Shift+L 
Tips and Tricks... 
Cheat Sheets... 


o — 
preferences 


% Check for Updates 
En — —] 


2 © Installation Details 
te a new Edipse PUG æ Edips Marketplace. 


: „|© About Ecipse 
6-8 ”安装 Python 插件 
打开 了 Eclipse 的 插件 安装 界面 ， 单 击 Add 按钮 ， 加 入 Eclipse 的 Python 插件 Pydev 的 安 
装 源 ， 如 图 6-9 所 示 。 
ee Hm ee E 


Available Software 
Select a site or enter the location of a site n 


Work with: type or select a site H 


Find more software by working with the "Available Scftwere Sites" preferences 







afe 












type filter text 


Name Version 
E QD There is ro site selected. 


© Add Repository 








Blame: Pydev 


cation: Htto://pydeworg/updates. 


are already installed 
installed? 






El Show only software applicable to target environment 
[Zi Contact all update sites during install to find required sofware 








图 6-9 设置 Pydev 安装 源 


设置 完毕 后 单 击 OK 按钮 ，Eclipse 将 显示 出 这 个 安装 源 中 所 有 的 可 用 插件 。 单 击 选中 
Pydev 插件 ， 单 击 Next 按钮 ， 开 始 安装 Pydev， 如 图 6-10 所 示 。 
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Available Software 
Check the items that you wish to install n 


Work with: | Pydev - http//oydevorgfupdates ~ [Mes 


Find more seftware by working with the “Available Software Cites" preferences. 














Version 








S12201606231256 
Ee [ecu 

Deis 
Show only the latest versions of available software (V) Hide items that are already installed 
MI Group items by category What is already installed? 


E] Show only software applicable to target emirormert 
Contact all update cites during install to find required software 
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6-10 ”安装 Python 插件 Pydev 


单 击 Next 按钮 ， 选 择 同意 协议 后 继续 单 击 Next 按钮 ， 直 到 Pydev 安装 完成 。 因 为 是 从 
服务 器 下 载 的 缘故 ， 这 个 安装 可 能 会 有 点 慢 。 不 用 着 急 ，Pydev 并 不 大 。 如 果实 在 没 耐性 ， 
也 可 以 用 下 载 工具 将 Pydev 先 下 载 到 本 地 ， 离 线 安装 Pydev。 安 装 完毕 后 ， 按 照 提 示 重 启 
Eclipse， 开 始 配置 Pydev 插件 。Pydev 插件 只 需要 配置 Python 解释 器 的 位 置 就 可 以 使 用 了 ， 
其 他 的 配置 可 根据 需要 自行 调试 。 

在 Eclipse 菜单 栏 中 ， 单 击 Windows 菜单 ， 选 择 Preferences 选项 。 在 Preferences 对 话 框 
中 单 击 左 侧 的 pyDev， 选 择 Interpreter， 单 击 Python Interpreter 选项 ， 如 图 6-11 所 示 。 





Python interpreters (e.g: pythonene). Double-cick to rename. 
ode Recommander Name Leeson 

iep 

netal/Updan 





© Select interpreter 
































6-11. 选择 Python 解释 器 位 置 
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单 击 New 按钮 ， 在 弹出 的 对 话 框 中 单 击 Browse 按钮 。 选 择 python.exe 的 路 径 ， 单 击 
OK 按钮 直到 Python 解释 器 导入 完毕 。 一 般 来 说 ， 下 一 步 应 该 是 给 Eclipse 加 载 中 文 包 。 但 
Eclipse Neon 版 本 还 很 新 ， 中 文 包 并 未 放出 ， 所 以 只 好 暂时 使 用 英文 版 本 的 。 如 果 非 要 中 文 
版 的 ， 那 只 能 重新 下 载 低 版 本 的 Eclipse 了 。 


3 . 创建 Python 项 目 


Eclipse 安装 配置 完毕 后 ， 开 始 创建 Python 项 目 。 打 开 Eclipse， 单 击 菜单 File | New | 
Project 项 ， 创 建 一 个 项 目 ， 如 图 6-12 所 示 。 





Package 
Class 
Interface 
Enum 
Annotation 
Source Folder 
Java Working Set 
Folder 
File 

@ Untitled Text File 

E? JUnit Test Case 

Convert Line Delimiters To Task 


P 
[-] 
6 
© 
e 
& 
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Print. 





图 6-12 Eclipse 创建 项 目 


在 弹出 的 对 话 框 中 选择 区 项 目 类 型 。 这 里 应 该 选择 PyDev 项 目 中 的 PyDev Project 子 项 
目 。 选 取 完毕 后 ， 单 击 Next 按钮 继续 ， 如 图 6-13 所 示 。 



































6-13 ”选取 项 目 类 型 


223 


在 弹出 的 对 话 框 中 输入 项 目 名 称 后 ， 单 击 Finish 按钮 ， 项 目 就 创建 完毕 了 ， 如 图 6-14 所 示 。 
— m + = E SOE) 
pedo ERN e 


Project contents: 
© Use default 








cory [E:\save\sync\code \crawler\be4ProjectihelloPython 
Project type. 
Choose the project type | 
S Python © Jython © IronPython 














tory to the PYTHONPATH 
and add it to the PYTHONPATH 
Create links to existing cources (celect them on the next page) 
Don't configure PYTHONPATH (to be done manually later on) 
Working sets 


Fla project to working sot —— 














[c] [ <Back || Next> IDEE Cae |] 
图 6-14 Python 项 目 名 称 


回 到 Eclipse 的 主 界面 下 ， 在 左 侧 将 出 现 刚 创建 的 Pydev 项 目 helloPython. £i: 
helloPython 项 目 将 弹出 菜单 ， 选 择 New 选项 ， 弹 出 子 菜 单 ， 如 图 6-15 所 示 。 





File Edit Navigate Search Project Pydev Run Window Help 
hes 0 QS Pel 7 HHs 
!$ PyDev Package.. 13| = D 


4 ib helloPvthoni 


? File 
3 Folder 


Link to Existing Source 
Source Folder 


Remove from Context Ctrl+Alt+Shift+Down 





Lis imood 





图 6-15 Python 项 目 创建 文件 
如 果 是 创建 文件 和 文件 夹 ， 正 常情 况 应 该 是 选择 File 和 Folder 选项 ， 但 笔者 更 喜欢 使 用 
PyDev Module 和 PyDev Package 选项 。 因 为 选择 File 会 创建 一 个 空 文件 ， 这 个 文件 里 什么 都 
没有 。 而 PyDev Module 选项 会 创建 一 个 根据 预 设 模版 (菜单 Windows | Preferences | 


PyDev | Editor | Templates 下 的 <Empty> 项 ) 创建 的 .py 文件 ， 无 须 在 每 次 创建 文件 时 再 重复 
KH. Folder 将 创建 一 个 空 文件 夹 ， 而 PyDev Package 将 创建 一 个 包含 ”init _.py 的 文件 夹 
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(就 是 在 上 章 中 创建 的 中 间 件 文件 夹 middlewares) ， 可 以 将 这 个 文件 夹 下 的 Python 文件 当 
成 模块 导入 到 项 目 中 。 
下 面 来 测试 一 下 ， 创 建 一 个 PyDev Module， 名 为 hello.py， 创 建 一 个 PyDev Package 名 
为 testModule， 并 在 testModule 中 创建 一 个 PyDev Module， 名 为 myModule。 创 建 完毕 后 的 
目录 结构 如 图 6-16 所 示 。 





File Edit Source Refactoring 
ETS iei 0 


I$ PyDev Package... 52 


PI helloPython 


4 @ testModule 
E _init_py 
4 B myModulepy 
@ showMe 
f) hello.py 


eram Files\python 





图 6-16 目录 结构 


【示例 6-1】 其 中 ，hello.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on '2016:E8 H 6H" 


@author: hstking hst_king@hotmail.com 
D 


from testModule.myModule import showMe 


zbz name cx 1 mainit: 
print('Hello, I am first python script on eclipse') 


Print (' 你 好 ， 我 是 在 eclipse 上 的 第 一 个 Python 程序 \n') 
showMe () 
testModule/myModule.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on 2016478 H 6 H 


@author: hstking hst_king@hotmail.com 
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def showMe () : 
print('I am a module') 


print (' 我 是 一 个 模块 \n') 
单 击 Eclipse 的 Run 菜单 ， 选 取 Run 选项 CCtrl + F11) ， 或 者 直接 单 击 工具 栏 的 Run 按 


钮 ， 执 行 结 果 如 图 6-17 所 示 。 
FIM 


Select a way to run getTileAndUr. py: 


[E 
Python unt-test. 





|| Description 





© Ce Tied 


图 6-17 选取 Python 解释 器 








选择 Python Run 后 单 击 OK 按钮 。 运 行程 序 ， 运 行 结果 如 图 6-18 所 示 。 
















File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
FO Jie Ov Ori ity TE UST. Quick Access | e3 | & (88) 
Hi PyDev Package.. 3 = © [hello £ | [P] testModule — |P) myModule o 

日 所 | 种 > 
4 th helloPython : = 
4 B testModule 4 
—init_py 2 ": 
a a 6 @author: hstking hstkingshosmai 
> B hello.py 8 
3 from testModule.myModule import showe 


b & D:\Program Files\python 
11 name ，， 
12 print( h 

13 print( 
14 showte() 
15 





a xko alenen n 


© Console £2 
ù ghelloPython\hello.py 








llo, I am first python script on eclipse 
rss. eaceclipsezsm-^pythongz! 








6-18 运行 Python 程序 
运行 无 误 ，Eclipse 测试 完毕 。 选 择 Eclipse 做 IDE 除了 它 跨 平台 、 支 持 语 言 丰 富 外 ， 还 因为 
Eclipse 有 着 强大 的 调试 功能 。 在 后 面 的 实例 中 会 演示 Eclipse Debug 调试 的 强大 方便 之 处 。 


226 


E Po r 
O.4 Beautiful Soup 解析 器 


与 Scrapy 相 比 ，bs4 中 间 多 了 一 道 解析 的 过 程 (Secrapy 是 URL 返回 什么 数据 ， 程 序 就 接 
受 什么 数据 进行 过 滤 ) 。bs4 则 在 接收 数据 和 进行 过 滤 之 间 多 了 一 个 解析 的 过 程 。 根 据 解 析 
器 的 不 同 ， 最 终 处 理 的 数据 也 有 所 不 同 。 加 上 这 一 步骤 的 优点 是 可 以 根据 输入 数据 的 不 同 进 
行 针 对 式 的 解析 ， 缺 点 就 是 可 能 会 让 使 用 者 选择 困难 ， 无 所 适 从 。 在 本 章 中 ， 统 一 选择 xm 
解析 器 。 


6.2.1 bs4 解析 器 选择 

网 络 爬 虫 最终 的 目的 就 是 过 滤 选 取 网 络 信息 ， 因 此 最 重要 的 部 分 就 是 解析 器 了 。 解 析 器 
的 优 劣 决 定 了 网 络 疏 虫 的 速度 和 效率 。Beautiful Soup 除了 支持 Python 标准 库 中 的 HTML fff 
析 器 外 ， 还 支持 一 些 第 三 方 的 解析 器 。 表 6-1 中 列 出 了 主要 的 解析 器 ， 以 及 它们 的 优 缺 点 。 


表 6-1 bs4 解析 器 对 比 












Python 标准 库 BeautifulSoup(markup,"html.parser") | Python 标准 库 Python 2.7.3 或 
执行 速度 适中 Python 3.2.2 之 前 


的 版 本 ， 中 文 容 
容错 能 力 强 错 能 力 差 


速度 快 需要 安装 C 语言 
容错 能 力 强 库 

Lxml XML 解析 器 | BeautifulSoup(markup,[“Ixml-xmI”]) | 速度 快 需要 安装 C 语言 
BeautifulSoup(markup,"xml”) 唯一 支持 XML 解析 器 
最 好 的 容错 性 速度 慢 


以 浏览 器 的 方式 解析 文 | 不 依赖 外 部 扩展 
档 


生成 HTMLS 格式 文档 





lxml HTML 解析 | BeautifulSoup(markup,"Ixml") 
器 











BeautifulSoup(markup,"html5lib") 





html5lib 

















Beautiful Soup 官方 推荐 使 用 Ixml 作为 解析 器 ， 据 说 因为 Ixml 解析 器 的 效率 更 高 ， 在 此 
接受 官方 意见 。 本 章 所 有 的 bs4 候 虫 ， 如 无 特殊 说 明 都 将 使 用 Ixml 解析 器 。 


6.2.2. Ixml 解析 器 安装 
1. Windows 下 安装 Ixml 解析 器 


这 里 需要 管理 员 权限 ， 使 用 pip 安装 ， 执 行 命令 : 
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pip3 install lxml 


执行 结果 如 图 6-19 所 示 。 


6.1.76011 


权 所 有 Bek 2089 Microsoft Corporation。 保 留 所 有 权利 。 


:Windows\system32>pip install lxnl 
ollecting lxml 


Using cached https://pypi.doubanio.con/packages/cb/b4/21319db4hef 36225ea8924a3 
[129332ab9989da7df aba790£ a427ac105ee7/1xn1-4.1.1-cp36-cp36n-vin and64.uhl 
Installing collected packages: lxml 

Successfully installed 1xml-4.1.1 


: Mindous \systen32>_, 








-19 Windows 安装 Ixml 


在 cmd.exe 里 测试 一 下 ， 如 图 6-20 所 示 。 


:Windows\systen32>pip install lxnl 
ollecting lxnl 

Using cached https://pypi.doubanio.com/packages/cb/hb4/21319db4bef36225ea8924a3 
|129332ab9989da7df aba790f a427ac10See2/1xn1-4.1.1-cp36-cp36n-vin. and64.uhl 
Installing collected packages: lxml 
Successfully installed lxnl-4.1.1 


= Windows \system32>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40» [MSC v.1980 64 bit <AMD64>] 
on win32 


ype "he opyright", "credits" or "license" for more information. 
» 





图 6-20 测试 xml 模块 
没有 提示 错误 ， 表 明 安 装 成 功 。 


2. Linux 下 安装 lxml 解析 器 


一 般 来 说 在 安装 bs4 时 Ixml 就 已 经 被 安装 过 了 ， 如 果 没 有 安装 ， 也 可 以 使 用 apt-get 命令 
重新 安装 一 下 ， 执 行 命令 : 


apt-get install python3-lxml 


执行 结果 如 图 621 所 示 。 
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P king@debian’: ~ 


root@debian8:/home/King apt-get install pythoni-lxml 
完成 


LAKH, ENG 0 个 软件 包 ， 有 139 个 软件 包 未 被 升 


0 B/742 kB 的 软件 包 
后 会 消耗 挤 2 2,788 ko BLM 
xt LL pn 
REID 157274 个 文件 和 目录 . 
nl_3. _amd64.deb ... 


lxml (3.4.0-1) ... 
Irootédebian8:/home/kings Bj 





6-21 Linux 安装 Ixml 
显然 Linux 的 apt-get 更 加 简单 方便 。 


6.2.3 ”使 用 bs4 过 滤器 


在 上 一 章 中 ，Scrapy 使 用 XPath 当 过 滤器 ， 在 网 页 中 过 滤 得 到 所 需 的 数据 。 本 章 bs4 则 
使 用 BeautifulSoup 做 过 滤器 。 与 XPath 相同 的 是 BeautifulSoup 同样 支持 谋 套 过 滤 ， 可 以 很 
方便 地 找到 数据 所 在 的 位 置 。 不 同 的 是 BeautifulSoup 的 查找 方式 更 加 灵活 方便 ， 不 但 可 以 通 
过 标签 查找 ， 还 可 通过 标签 属性 来 查找 。 而 且 bs4 还 可 以 配合 第 三 方 的 解析 器 ， 可 以 有 针对 
性 地 对 网 页 进行 解析 ， 使 bs4 威力 更 加 强大 、 方 便 。 

宣 网 教程 上 使 用 的 是 “爱丽 丝 梦 游 仙 境 ” 的 内 容 作为 示例 文件 ， 但 这 个 文件 比较 大 ， 看 
起 来 没 那么 直观 。 这 里 笔者 自 建 一 个 HTML 的 示例 文件 scenery.html， 通 过 对 scenery.html 的 
操作 过 滤 ， 再 对 照 官网 对 示例 文件 的 操作 方法 ， 很 容易 就 能 明白 bs4 是 如 何 过 滤 提取 数据 
的 。 


【示例 6-2】 自 建 示例 文件 scenery.html 的 内 容 如 下 : 





1 <html> 

2 <head> 

3 <meta charset="utf-8"> 

4 <title> 武 汉 旅游 景点 </title> 

5 <meta name-"description" content=" 武 汉 旅游 景点 精简 版 " /> 
6 <meta name="author" content="hstking"> 
7 </head> 

8 <body> 

9 <div id="content"> 

10 <div class="title"> 

11 <h3> 武 汉 景 点 </h3> 

12 </div> 

13 <ul class="table"> 
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14 <1i> 景 点 <a> 门 票 价格 </a></1i> 

15 </ul> 

16 <ul class="content"> 

17 <li nu="1"> 东 湖 <a class="price">60 «/a»«/li» 

18 <li nu="2"> 磨 山 <a class="price">60 «/a»«/li» 

19 <li nu="3">K RF <a class="price">108 </a></li> 

20 <li nu="4"> 海 昌 极 地 海洋 世界 «a class="price">150 </a></li> 
2 <li nu="5"> 玛 雅 水 上 乐园 «a class="price">i50 «/a»«/li» 
22 </ul> 

23 </div> 

24 </body> 

25 </html> 

进入 文件 目录 执行 命令 : 

python3 


from bs4 import BeautifulSoup 
soup = BeautifulSoup(open(‘scenery.html’), ‘lxml’) 


soup.prettify 


执行 结果 如 图 6-22 所 示 。 


>>> 
«bound method BeautifulSoup.prettify of «html» 

|«nead» 

Kmeta charset="utf-8"/> 

<title> 武 汉 旅游 景点 </title> 

<meta content=" 武 汉 旅 游 景 点 精简 版 name="description"/> 
meta contente"hstking" name="author"/> 

</head> 

<body> 

«div ide"content"» 


<ul class="table"> 
<li> 景 点 <a> 门 票 价格 </a></1i> 


class="content"> 
nu="1"> 东 湖 «a class="price">60 </a></1i> 

nu="2"> 磨 山 <a class="price">60 </a></1i> 
nu="3"> 欢 乐 谷 «a class="price">108 «/a»«/1i» 
nu="4"> 海 昌 极地 海洋 世界 <a class="price">150 </a></li> 
nu="5"> 玛 雅 水 上 乐园 «a class="price">i50 </a></1i> 





6-22 soup.prettify 








bs4 会 将 所 有 输入 的 内 容 的 字符 编码 编 为 unicode。 输 入 内 容 为 英文 时 还 看 不 出 什么 优 
势 ， 但 在 过 滤 中 文 网 页 时 会 非常 方便 。 








一 个 文件 或 一 个 网 页 ， 在 导入 BeautifulSoup 处 理 之 前 ，bs4 并 不 知道 它 的 字符 编码 是 什 
么 。 在 导入 BeautifulSoup 过 程 中 ， 它 会 自动 地 猜测 这 个 文件 或 是 网 页 的 字符 编码 。 常 用 的 编 
码 当 然 会 又 快 又 好 地 猜 出 来 。 但 不 常用 的 编码 呢 ? 好 在 BeautifulSoup 还 有 两 个 非常 重要 的 参 
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Ji: exclude encoding fil from encoding. 

参数 exclude encoding 的 作用 是 排除 掉 不 正确 的 字符 编码 。 例 如 ， 已 经 非常 确定 网 页 不 
是 iso-8859-7 也 不 是 gb2312 编码 ， 但 又 未 知 网 页 编码 时 ， 就 可 以 使 用 命令 : 

soup = BeaurtifulSoup(response.read(), exclude encoding-['iso-8859- 
T.r 9023121) 


此 时 bs4 就 会 放弃 猜测 这 两 种 编码 。 比 如 ， 如 果 已 知 网 页 的 具体 编码 是 big5， 也 可 以 直 
接 使 用 from_encoding 参数 确定 编码 ， 让 bs4 放弃 猜测 ， 可 以 使 用 命令 : 


soup = BeaurtifulSoup(response.read(), exclude encoding-'big5') 


一 般 来 说 bs4 都 不 需要 自己 确定 编码 ， 常 用 的 字符 编码 它 都 能 检测 出 来 。 但 有 时 碰见 比 
较 生 个 的 编码 时 ， 这 两 个 命令 就 显得 非常 重要 了 。 中 文 的 字符 编码 是 个 非常 讨厌 的 问题 ， 如 
果 不 知道 文件 的 字符 编码 ， 而 bs4 又 解析 编码 错误 时 ， 那 就 只 有 根据 官网 的 方法 ， 安 装 
chardet 或 者 cchardet 模块 ， 然 后 使 用 UnicodeDammit 自动 检测 了 。 

解决 字符 编码 这 个 问题 后 ， 已 经 得 到 了 soup 这 个 bs4 的 类 。 在 soup 中 ，bs4 将 网 页 节点 
解析 成 了 一 个 个 Tag。 同 名 的 Tag (HTML 中 的 标签 就 那么 几 个 ， 所 以 同名 的 Tag 会 非常 
多 ) 会 有 不 同 的 属性 。 即 使 同名 又 同属 性 的 Tag， 它 们 又 有 顺序 和 父 标签 的 区 别 。bs4 就 是 通 
过 这 些 不 同 将 所 需 的 数据 过 滤 出 来 的 。 

这 里 的 Tag 5j HTML 或 XML 中 的 Tag 是 一 致 的 。 执 行 命令 : 


Tagl = soup.ul 


得 到 的 结果 如 图 6-23 所 示 。 

以 上 命令 的 作用 是 通过 soup 来 获取 第 一 次 出 现 的 标签 名 为 ul 的 标签 内 容 。 用 同样 的 方 
法 ， 可 以 获取 第 一 个 出 现 的 ， 标 签名 为 div、1li、head、title…… 的 标签 内 容 。 

如 果 某 个 标签 只 出 现 了 一 次 ， 比 如 <head>、<title> 标 签 ， 通 常 只 会 出 现 一 次 。 可 以 用 
soup.head 和 soup.title 的 方式 获取 标签 内 容 ， 还 可 以 用 bs4 过 滤器 soup.find(Tag, [attrs]) 的 方法 
获取 第 一 次 出 现 的 标签 的 内 容 。 执 行 命令 : 


soup.ul 





soup. find('ul') 


执行 结果 如 图 6-24 所 示 。 





>>> soup = BeautifulSoup(open('scenery.html'), 'lxml') 





class="table"> 
<a> 门 票 价格 </a></1i> 





TT 
1i> 景 点 <a> 门 票 价格 </a></1i> 
/ul» 

6-23 soup 获取 Tag 6-24 soup.find 获取 Tag 


在 一 个 HTML 文件 中 ， 有 的 标签 肯定 不 止 出 现 一 次 。 具 体 到 这 个 示例 文件 scenery.html 
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中 ，<div>、<ul>、<li> 就 不 止 出 现 一 次 。 第 一 次 出 现 的 标签 位 置 如 何 确定 已 经 很 清楚 了 ， 那 
第 二 次 、 第 三 次 、 第 N UME? bs4 给 出 的 方法 是 soup.find_all(Tag，[attrs])。 使 用 soup.find all 
命令 可 以 获取 所 有 符合 条 件 的 标签 列表 ， 然 后 直接 从 列表 中 读 取 就 可 以 了 。 执 行 命令 : 

soup.find all('ul') 

soup.find all('ul')[0] 

soup.find all('ul')[1] 


执行 结果 如 图 6-25 所 示 。 


























图 6-25 soup.find_all 获取 Tag 


从 顺序 上 来 区 别 同名 标签 ， 这 样 出 现 再 多 的 同名 标签 也 可 以 很 从 容 地 定位 了 。 在 HTML 
中 ， 同 名 标签 比较 少时 ， 可 以 先 用 soup.find all 来 获取 标签 位 置 列表 ， 再 用 一 个 个 数 的 方法 
来 确定 标签 位 置 。 如 果 这 个 列表 比较 短 还 好 ， 从 1 数 到 20 还 可 以 接受 。 如 果 这 个 列表 很 长 
WE? 从 1 数 到 100 那 就 太 讨 厌 了 。 

还 是 以 scenery.html 文件 为 例 ， 文 件 中 的 <li> 标 签 ， 目 前 在 文件 中 只 出 现 了 6 次 。 如 果 列 
出 所 有 的 景点 ， 标 签 <li> 出 现 60 次 都 不 奇怪 。 仔 细 观 察 一 下 li 标签， 它们 除了 名 字 相 同 外 ， 
还 有 一 个 相同 的 属性 nu， 而 属性 nu 的 值 是 不 同 的 。bs4 过 滤器 Soup.find 和 soup.find_all 都 
支持 名 字 + 属 性 值 定位 。 

如 果 一 个 HTML 文件 中 出 现 了 标签 名 相同 ， 属 性 不 同 的 标签 。 例 如 ，scenery.html 文件 
中 的 <l 记 标签 ， 可 以 用 soup.find(TagName，attrs={attrName:attrValue}) 的 方法 获取 Tag 的 位 
置 。 比 如 需要 定位 标签 文字 为 欢乐 谷 的 那个 <li> 标 签 〈<li> 标 签 的 属性 是 相同 的 ， 都 是 nu, 
只 是 属性 值 不 同 ) 。 可 以 执行 命令 : 


soup.find('li', attrs={'nu':'3'}) 


执行 结果 如 图 6-26 所 示 。 





>>> soup.find('li', attrs-('nu':'3']) 


Kli nu="3"> 欢 乐 谷 «a class-"price"»108 «/a»«/li» d 
>>> B 





6-26 soup.find 配合 属性 获取 标签 
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如 果 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 ， 那 就 用 soup.find alltagName, 
attrs={‘attName”:"attValue”}) 将 所 有 符合 条 件 的 标签 装 入 列表 ， 然 后 从 列表 中 慢 慢 地 数 。 请 放 
心 ， 一 般 情况 下 ， 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 在 任何 一 个 文件 中 都 是 很 
少见 的 。 在 sceneryhtml 文件 中 ， 符 合 这 个 条 件 的 只 有 <a> 标 签 ( 如 果 是 显示 完整 的 景点 <a> 
标签 也 会 很 多 ， 那 是 下 一 步 的 问题 ) 。 如 果 需 要 获取 景点 “ 磨 山 ” 这 一 行 的 <a> 标 签 ， 可 以 
执行 命令 : 

Tags = soup.find all('a', attrs={'class':'price'}) 

Tags[1] 


执行 结果 如 图 6-27 所 示 。 


>>> Tags = soup.find all('a', attrs={'class':'price'}) 
>>> Tags(1] 
<a class="price">60 </a> 


>>> f 





目前 HTML 没有 列 出 所 有 的 景点 ，<a> 标 签 还 比较 少 ， 如 果 列 出 了 所 有 景点 <a> 标 签 很 
多 ， 该 怎么 办 ? 再 仔细 观察 一 下 <a> 标 签 ， 所 有 <a> 标 签 的 标签 名 、 属 性 和 属性 值 虽然 是 相同 
的 ， 但 它们 的 上 级 标签 (也 就 是 常 说 的 父 标签 ) 的 标签 名 、 属 性 和 属性 值 总 不 可 能 相同 吧 ? 
即使 运气 再 差点 ， 上 级 标签 的 标签 名 、 属 性 、 属 性 值 都 相同 ， 上 上 级 标签 的 难道 也 相同 ?还 
是 以 获取 景点 ，“ 磨 山 ” 这 一 行 的 <a> 标 签 为 例 ， 执 行 命令 : 

tmpTag = soup.find('li', attrs-('nu':'2']) 

tmpTag.a 

tmpTag.find('a') 


执行 结果 如 图 6-28 所 示 。 


>>> Tags = soup.find all('a', attrs-('class':'price']) 


ETES TIRATE 
[ka class="price">60 </a> 





图 6-28 soup 嵌 套 获取 标签 

这 种 不 直接 定位 目标 标签 ， 先 间接 定位 目标 标签 的 上 级 (也 可 以 是 下 级 ) 标签 ， 再 间接 
定位 目标 标签 的 方法 ， 有 点 类 似 于 Scrapy 中 XPath 的 谋 套 过 滤 了 。 

实际 上 ， 如 果 觉 得 目标 标签 没什么 显著 特征 ， 上 级 标签 和 下 级 标签 也 没有 什么 显著 特 
征 。 还 可 以 定位 目标 标签 的 兄弟 标签 。 不 过 这 种 方法 一 般 很 少 用 ， 这 里 就 不 多 说 了 。 有 兴趣 
的 读者 可 以 参考 官方 文档 。 

一 般 来 说 ， 最 终 需 要 获取 保存 的 数据 都 不 会 是 标签 ， 而 是 标签 里 的 数据 ， 这 个 数据 有 可 
能 是 标签 所 包含 的 字符 串 ， 也 有 可 能 是 标签 的 属性 值 。 不 过 获取 标签 后 ， 要 数据 那 就 很 简单 
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了 。 例 如 ， 获 取 示 例文 件 中 海 昌 极地 海洋 世界 这 个 景点 的 序号 和 票 价 ， 也 就 是 这 一 行 标签 
<li> 的 属性 nu 的 值 和 <a> 标 签 包含 的 字符 串 ， 可 以 执行 命令 : 


Tag = soup.find('li', attrs-('nu':'4']) 





Tag.get (‘nu’) 
Tag.a.get_text()’ 


执行 结果 如 图 6-29 所 示 。 





[>>> Tag = soup.find('ii', attrs={'nu':'4"}) 





6-29 soup 获取 数据 


如 果 只 需要 做 简单 仆 虫 ， 了 解 以 上 知识 就 可 以 了 。 如 果 需 要 对 bs4 进行 深度 挖掘 ， 还 需 
要 读者 自行 参考 bs4 的 官方 文档 。 


9 。 池 ”bs4 ERER- : 获取 百度 贴吧 内 容 


笔者 是 个 美剧 迷 ， 经 常 在 网 上 追 剧 ， 偶 尔 也 在 百度 贴吧 上 看 看 美剧 贴 ， 可 又 比较 懒 ， 天 
天 登录 贴吧 查看 贴 子 觉得 很 麻烦 。 干 脆 就 写 个 候 虫 让 它 自动 怎 内容 好 了 ， 有 空 就 看 看 哪些 帖 
子 回复 了 ， 又 有 哪些 新 贴 。 这 里 以 百度 贴吧 里 的 “权利 的 游戏 吧 ” 为 例 。 


6.3.1 目标 分 析 

百度 贴吧 中 “权利 的 游戏 ”的 URL 是 http://tieba.baidu.com/f?kw—-?6E6949D968396E596 
88%A9%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8&pn=0。 看 起 来 很 乱 是 不 是 ? 仔细 看 
看 这 个 URL， 其 中 包含 有 ie=utf-8， 说 明 那 个 浏览 器 接受 的 是 utf8 的 字符 编码 。 正 好 ， 
Python 3 默认 的 编码 就 是 utf-8。 可 以 省 下 好 多 事 。 而 %E6%9D%83%E5%88%A9%E7%9A% 
84%E6%B8%B8%E6%88%8F 实际 上 是 unicode 编码 的 权利 的 游戏 转 码 成 utf-8 编码 而 来 的 。 
这 种 url 转 码 在 Python 3 中 有 专门 的 模块 urllib.parse 来 转换 ， 如 图 6-30 所 示 。 
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BE BIESOHETA python = d» * 


licrescf: 10. €. 16266, 192] al 
X sre saisi d. 保留 所 有 术科 > 
ds ers Vine 








Racons custom (64-bit)| (default, Jan 16 2010, 10:22:32) DISC v. 
RE PY bip (MND64)] on wine 


ES EERE 
“aati retreated 1x87 \x9a\xB4\xeO\xbS\ab8 xe 188 Bf 
port urilib, 


its” nr “license” f infornaii 




















urllib. parse. motel BORERESRB SE 1 d 
EENSTARSHESAASGAONESXBONGEME TV SAM LANE ON RB DEAN RE" 


D> 








LI 
图 6-30 ”编码 转换 


这 个 由 “权利 的 游戏 ”转换 而 来 的 乱码 是 不 是 很 眼熟 。 所 以 这 个 URL 原本 的 状态 应 该 是 
http://tieba.baidu.com/f?kw= 权 利 的 游戏 &ie=utf-8&pn=0， 将 其 中 的 中 文 转 码 后 交 给 python 程 
序 处 理 就 可 以 了 。 

在 网 页 上 单 击 “ 下 一 页 ”按钮 ,浏览 器 跳 转 得 到 的 URL 是 http://tieba.baidu.com/f?kw= 
%E6%9D%83%E5%88%A9%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8&pn=50. 好 的 ， 
明白 了 。 每 单 击 一 次 “下 一 页 ”按钮 ，pn 都 将 增加 50. 

在 浏览 器 (这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 浏览 器 基本 上 都 差不多 ) 中 打开 这 个 
URL， 查 看 帖子 标题 ， 如 图 6-31 所 示 。 


Bai Mew FRR ET 
-— an 


"an etn 








374 LRN IGE, TOR 


《权力 的 游戏 》(Game of Thrones PRAG REHE RTH RR STA 


7 (Leg aes oe 


Me rudes 





图 6-31 bs4 fé roe IFT TH 


在 页 面 空白 处 右 击 ， 选 择 “ 查 看 网 页 源 代 码 ”， 在 页 面 源 代码 网 页 按 Ctrl+F 键 打开 查找 
框 ， 在 查找 框 内 输入 第 一 个 帖子 的 标题 名 ， 找 到 所 需 数据 位 置 ， 如 图 6-32 所 示 。 


CHOSE. 无 修 要 在 ， 笔 1 全 x25 


Better nasetquot:siquotiCarpe Diem Aquot; quot first_post_idtquot 95961199639, quot rep 
dkquot ;rquot-Aquot;,kquot 12. goodquot : mul, áquot is topkquot;:null,áquot;is protaliquot 


Lthresdlist Li eight ~ 


t title puli left i th tit 





632 ”所 需 数据 位 置 


找到 所 需 数据 的 位 置 后 ， 仔 细 观 察 一 下 ， 发 现 所 有 帖子 都 有 一 个 共同 的 标签 <li class=" 
j thread list clearfix"> 〈 这 个 标签 还 有 其 他 的 属性 ， 只 需要 一 个 共同 的 属性 就 够 了 ) 。 所 以 只 
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需要 用 bs4 过 滤器 find all 找到 所 有 的 标签 ， 然 后 再 进一步 分 离 出 所 需 的 数据 就 可 以 了 。 


6.3.2 项 目 实施 


既然 思路 都 已 经 明确 了 ， 那 就 开工 吧 。 打 开 Eclipse, itt New 图 标 右 侧 的 三 角 按钮 ， 
在 弹出 菜单 中 选择 PyDev Project 项 ， 如 图 6-33 所 示 。 


avigate Search Project Pydev Run Window Hep 
EE WE ES 


oe 


Source Folder 
PyDev Package 

日 PyDev Module 

3 Folder 

2 He 

| Untitled Text Fle 


] Other. 





图 6-33 Eclipse 创建 Python 新 项 目 
在 弹出 的 对 话 框 中 输入 项 目 名 称 ， 单 击 Finish 按钮 ， 如 图 6-34 所 示 。 


BsAProject - PyDey - Eclipse 
SSS ee 
|^. ee Or ae $77 


| i PyDev Package.. 33 7 D 


E = 
PyDev Project 


Create a new PyDev Project. 








Project name:_baiduBS4 
Project contents: 
园 Use default 
E,\save\sync\code\crawler\bs4Project\baiduBS45 
Project type 
Choose the project type 
© Python © Jython © IronPython 
Grammar Version 
[27 
Interpreter 
[Default 














Click here to configure an interpreter not listed, 
@ Add project directory to the PYTHONPATH 
Create ‘src’ folder and add it to the PYTHONPATH 


© Create links to existing sources (select them on the next page) 
Don't configure PYTHONPATH (to be done manually later on) 
Working sets 








T Add project to working sets 





634 输入 项 目 名 
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在 Eclipse 的 左 侧 右 击 刚 建立 的 项 目 baiduBS4， 在 弹出 的 菜单 中 选择 New | PyDev 
Module 菜单 。 在 项 目 中 创建 一 个 新 的 Python 模块 〈 前 面 提 到 过 ， 这 里 选择 PyDev Module 是 
为 了 方便 。 非 要 选择 file， 从 零 开始 一 步 步 地 创建 一 个 Python 文件 当然 也 可 以 ) ， 如 图 6-35 
所 示 。 


S bs4Project - PyDev E 
Fie Edit Navigate Search Project Pydev Run Window Help 
Play site Om ET 





+ ID Project. 


?了 Fie 


Folder 


(9 Link to bisting Source 
(9 Source Folder 
1) PyDe Module 
QW PyDev Package 
Ctrl+Alt+Shift+Down 
T3 Other... 





6-35 在 项 目 中 创建 Python 文件 


在 弹出 的 对 话 框 中 输入 Python 文件 的 文件 名 《〈 无 须 加 后 组 名 ) ， 右 击 Finish 按钮 。 
Python 文件 创建 完成 ， 如 图 6-36 所 示 。 


= bsaProject - | 





| File Edit Navigate Search Project Pydev Run Window Help 
HL OF Oi yi = 
I$ PyDev Package.. 3 = O 
es 
4 wh baiduBs4 
e oe c —À 
Create a new Python module 





Source Folder /baiduBS4 


Package 


Name Ed 9 





oe Eee 


6-36 Python 文件 名 








【示例 6-3】 在 新 创建 的 getCommentInfo.py 中 输入 代码 ，getCommentInfo.py 的 代码 如 下 : 


1 #!/usr/bin/evn python3 
2 $-*- coding: utf-8 -*- 
Su 
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Created on 20164 8H 9H 


@author: hstking hst_king@hotmail.com 


(0 0 - O0 0 à 


10 import urllib.request 

11 import urllib.parse 

12 from bs4 import BeautifulSoup 

13 from mylog import MyLog as mylog 
14 import codecs 

15 

16 

17 class Item(object): 

18 title - None # 帖 子 标题 

19 firstAuthor = None #h Figs 
20 firstTime = None  # 帖 子 创建 时 间 
21 reNum = None # 总 回复 数 

22 content = None # 最 后 回复 内 容 
23 lastAuthor = None “ # 最 后 回复 者 
24 lastTime = None # 最 后 回复 时 间 








Db 

26 

27 class GetTiebaInfo (object): 

28 def _ init  (self,url): 

29 self.url - url 

30 self.log - mylog() 

Bh self.pageSum - 5 

32 self.urls = self.getUrls (self.pageSum) 
33 self.items = self.spider(self.urls) 
34 self.pipelines (self.items) 

35 

36 def getUrls (self,pageSum): 

kii urls = [] 

38 pns = [str(i*50) for i in range(pageSum) ] 
39 ul = self.url.split('=') 

40 for pn in pns: 

41 ETA Ta i | pn 

42 url = '='. „join (ul) 

43 urls.append(url) 

44 self.log.info ("3H URLS 成 功 ') 

45 return urls 

46 


238 


47 def spider(self, urls): 


48 items - [] 

49 for url in uris: 

50 htmlContent = self.getResponseContent (url) 

51 soup = BeautifulSoup (htmlContent, 'lxml') 

52 tagsli = soup.find all('li',attrs-('class':' j thread list 
clearfix']) 

53 for tag in tagsli: 

54 item - Item() 

55 item.title = tag.find('a', 
attrs-('class':'j th tit']).get text().strip() 

56 item.firstAuthor = tag.find('span', attrs={'class':'frs- 
author-name-wrap']).a.get text().strip() 

57 item.firstTime = tag.find('span', attrs={'title':' 创 建 时 间 
"}) .get_text ().strip() 

58 item.reNum = tag.find('span', attrs={'title':'H 
"}) .get_text().strip() 

59 item.content = tag.find('div', 


attrs={'class':'threadlist_abs threadlist abs onlyline '}).get_text().strip() 


60 item.lastAuthor = tag.find('span', 
attrs-('class':'tb icon author rely j replyer']).a.get text().strip() 

61 item.lastTime = tag.find('span'，attrs={'title':' 最 后 回复 时 
li]')).get text 0 .strip() 

62 items.append (item) 

63 self .10g.info(' 获 取 标 题 为 <<%s>> 的 项 成 功 ...' Sitem.title) 

64 return items 

65 

66 def pipelines(self, items): 

67 fileName = ' 百 度 贴吧 权利 的 游戏 .txt'#.encode ('utf-8') 

68 with codecs.open(fileName, 'w', 'utf-8') as fp: 

69 for item in items: 

70 try: 

TA fp.write('title:%s \t author:%s \t firstTime:%s \r\n 


content:%s \r\n return:%s \r\n lastAuthor:%s \t lastTime:%s \r\n\r\n\r\n\r\n' 
72 $(item.title, item.firstAuthor, item.firstTime, 
item.content, item.reNum, item.lastAuthor, item.lastTime)) 


73 except Exception as e: 

74 self.log.error(' SA ff AW) 

75. else: 

76 self.10g.info(' 标 题 为 <<%s>> 的 项 输入 到 "%s" 成 功 ' 
$(item.title, fileName)) 

m 

78 def getResponseContent(self, url): 
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79 " 7" 这 里 单独 使 用 一 个 函数 返回 页 面 返回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 
headers 等 


80 Vea 

81 urlList = url.split('-') 

82 urlList[1] = urllib.parse.quote(urlList[1]) 

83 url = '='.join(urlList) 

84 try: 

85 response = urllib.request.urlopen (url) 

86 except: 

87 self.log.error('Python 返回 URL:%s 数据 失败 ' surl) 
88 else: 

89 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 
90 return response.read() 

91 

92 

99i 


94 
95 GTI = GetTiebaInfo (url) 


按照 上 面 的 步骤 ， 在 项 目 中 重新 建立 一 个 名 为 mylog.py 的 PyDev Module (也 可 以 是 一 
个 单纯 的 File) 。 


【示例 6-4] mylog.py 的 内 容 如 下 : 
#!/usr/bin/env Python3 





# -*- coding:utf-8 -*- 
#Author :hstking 

#E-mail :hst_king@hotmail.com 
#Ctime :2015/09/15 

#Mtime : 


#Version : 


(0 0 - O0 OU es wn Hd 


import logging 


m 
o 


import getpass 


m 
m 


import sys 


PRR 
心 WN 


THE 定义 MyLog 类 


15 class MyLog (object): 

16 #### 类 MyLog 的 构造 函数 

alt) def init (self): 

18 self.user - getpass.getuser() 

19 self.logger - logging.getLogger (self.user) 
20 self.logger.setLevel (logging .DEBUG) 
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gal 


22 #444 日 志文 件 名 


23 
24 


self.logFile = sys.argv[0][0:-3] + '.log' 


self.formatter = logging.Formatter('$(asctime)-12s $(levelname)- 


8s $(name)-10s %(message)-12s\r\n') 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
SL 
52 
53 
54 
55 
56 
Si 
58 
59 
60 


项 目 代 码 已 经 完成 了 。 此 时 Eclipse 中 的 项 目 如 图 


HH 日志 显 示 到 屏幕 上 并 输出 到 日 志文 件 内 


self.logHand = logging.FileHandler(self.logFile, encoding-'utf8') 


self.logHand.setFormatter (self.formatter) 
self.logHand.setLevel(logging.DEBUG) 


self.logHandSt - logging.StreamHandler() 


self.logHandSt.setFormatter (self.formatter) 


self.logHandSt.setLevel(logging.DEBUG) 


self.logger.addHandler (self.logHand) 
self.logger.addHandler (self.logHandSt) 


#### 日志 的 5 个 级 别 对 应 以 下 的 5 个 函数 


def debug(self,msg) : 
self.logger.debug (msg) 


def info(self,msg): 
self.logger.info (msg) 


def warn(self,msg): 
self.logger.warn (msg) 


def error(self,msg): 
self.logger.error (msg) 


def critical(self,msg): 
self.logger.critical (msg) 


if name == ' main ': 


mylog = MyLog() 
mylog.debug(u"I'm debug 测试 中 文 ") 
mylog.info("I'm info") 
mylog.warn("I'm warn") 
mylog.error(u"I'm error 测试 中 文 ") 
mylog.critical ("I'm critical") 





6-37 所 示 。 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
TOSI FOTOS TU - Quick Access |:| 


= n [B getcommentinfo 





IB] getCommentinfo.py 


Bund 








6 @author: 


183 helloPvthon 


5 import urllib2 
from bs4 import Beautifulsoup 
rom mylog import MyLog as mylog 


lass Item(object): 
title = None 
firstAuthor = None 
firstTime = None 
reNum = None 
content = None 
lastAuthor = None 
lastTime = None 








6-37 Eclipse Ji baiduBS4 


单 击 菜单 栏 上 的 运行 图 标 ， 程 序 运 行 完毕 后 单 击 baiduBS4 项 目 图 标 ， 按 FS 键 刷新 。 得 
到 的 结果 如 图 6-38 所 示 。 


TT 


Fle Edit Navigate Search Project prier- Run Window Help 
wham. 0 EO LOE 


If PyDev Package.. &% = ©  [B) getCommentinfo ^ |)getComment.. |) ERVE KLJBSEDE Oe 3 | 总 ag 
=] 1title:gTuWeeg Au--mien1-68 micis Same hpu4610. author :giregithpud a 
2 content: IE | 
3 return:116 
a getCommertinfalog 3 lastAuthor: jobforduant lastTime:23:17 
回 getCommentinfo.py 5 


B mylog.py 





^603878260 — firstlime:8-3 
mesasscQta. masa s 


a helloPython stAuthor:eggm-zae — lastTime:23:17 


title:sasexsercersetezn me —— authorigitiSVeanee firstTime:8-1 
content:wsBu: 9988 ias 

retur 

lastAuthor:zwRue00  lastTime:23:17 


2title:ggsgaenat-mqenl-68-28-25PP TUR; RUSAOEERTEREEe author: 95 
23 _content:8aRsytv6266 miwamNPREX ytvE056 m aean suana «rommai- 
M. | 








© Console $2 Pi PyUnit exxQE(/RR PERE rS-m--o 
«terminated» E:\save\sync\code\crawler\bs4Project\baiduBS4\getCommentinfo.py 


2016-08-16 23:17:34,651 INFO king SEncSan8 SUT ARES 6O=NeHS nse? 





图 6-38 Eclipse 运行 结果 


运行 完毕 后 得 到 了 两 个 新 文件 。 一 个 是 log 文件 getCommentInfo.log， 一 个 是 爬虫 保存 结 
ROCHE “百度 贴吧 _ 权 利 的 游戏 .txt”。 在 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 的 中 文明 显 有 
乱码 ， 没 关系 ， 那 是 因为 直接 用 Eclipse 的 编辑 器 打开 的 缘故 。 右 击 Eclipse 左边 “百度 贴吧 _ 
权利 的 游戏 .txt” 的 图 标 ， 在 弹出 的 菜单 中 选择 Open With 菜单 ， 然 后 在 弹出 的 子 菜单 中 选择 
System Eitor 项 ， 使 用 Windows 自 带 的 笔记 本 打开 文件 ， 乱 码 就 不 见 了 ， 如 图 6-39 所 示 。 
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oO 0 | (838 


= D 加 getCommentinfo c getCommentl. 有 目 百 度 贴吧 权利 的 游 沈 bt 1 |”, E 
$ i SRSGHRMERI-SmisESeRESsERRhpUsELe  author:Siresshpus = 
[ 


lastrise:23:17 





ZAA REO WRO EEV | MAD) 
title: [838] 权利 的 游戏 1-6 季 高 清 无 山 诚 要 的 加 whpu4510 a 
content: 








eturn:110 
lastAuthor : jobforduanl lastTine:23:1T 


author: PD firstlime:8-9 





639 笔记 本 打开 文件 


这 是 因为 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 数据 保存 的 是 utf8 编码 。 Eclipse 自 带 的 文 
字 编 辑 器 默认 支持 的 是 GBK 编码 ， 所 以 会 显示 乱码 。 而 Windows 记事 本 notepad 虽然 也 默 
认 支 持 的 是 GBK， 但 是 它 同 时 也 支持 utf8 编码 。 


6.3.3 ”代码 分 析 


在 项 目 baiduBS4 中 除了 主 程序 外 ， 笔 者 还 自 定义 了 一 个 mylogpy 模块 对， 就 是 模块 ， 这 个 
Python 程序 就 是 做 模块 用 的 ) 。 这 个 模块 的 作用 很 明显 ， 就 是 为 了 主 程序 提供 log 功能 。 

log 功能 很 重要 。 虽 然 Eclipse 已 经 提供 了 非常 方便 的 Debug 功能 ， 没 有 log 配合 就 只 能 
从 头 到 尾 一 步 一 步 地 调试 。 几 步 十 几 步 那 也 就 忍 了 ， 可 息 虫 动 辆 几 十 页 上 百 页 的 候 行 ， 一 旦 
出 错 ， 没 有 log 帮助 定位 ， 很 难 找到 错误 点 。 

这 个 mylog.py 写 得 很 简单 ， 只 是 将 Python 的 标准 模块 logging 简单 地 包装 了 一 下 。 第 
9-11 行 导入 了 所 需 的 Python 模块 。 第 15 行 创建 了 一 个 新 的 类 。 第 18~24 行 定义 了 log 文件 
的 文件 名 、 用 户 名 、log 的 等 级 以 及 log 文件 的 格式 。 这 里 要 稍 做 说 明 的 是 ， 在 log 的 格式 
self.formatter 的 最 后 添加 了 一 个 wwn。 那 是 因为 在 Windows 下 换行 符号 是 \\n， 如 果 是 在 Linux 
下 ， 加 \ 就 可 以 了 。mylog.py 这 个 自 建 模块 在 Windows 和 Linux 下 基本 是 通用 的 。 

第 27-36 行 则 定义 了 两 个 loghandler。 一 个 是 将 log 输出 到 文本 中 ， 一 个 是 将 log 输出 到 
终端 方便 调试 。 第 39~52 行 则 按照 logging 模块 定义 了 5 个 log 级 别 。 

主 程序 getCommentInfo.py 也 比较 简单 。 第 10-14 行 还 是 导入 所 需 的 模块 。 在 第 17-24 
行 定义 了 一 个 新 类 。 还 记得 Scrapy 框架 中 的 items.py 09? 主 程序 里 的 Item 类 就 是 仿照 
Scrapy 框架 中 的 items.py 写 的 。 个 人 认为 Scrapy 的 框架 非常 方便 ， 也 很 合理 ，Scrapy 优秀 的 
地 方 就 直接 学 习 借鉴 了 。 也 可 以 完全 参考 Scrapy 的 方法 ， 重 新 建立 一 个 Python 模块 ， 将 这 
个 类 放 到 一 个 单独 的 文件 中 。 

第 27 行 创建 了 一 个 仆 虫 类 。 第 29 TEM SMM AA URL。 第 30 行为 类 创建 了 一 个 
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log. 58 29 TWEN TMT MM, KHL AMT Y 5 页 ， 实 际 上 有 接近 1000 HAY. dn 
有 必要 ， 完 全 可 以 一 网 打 尽 。 第 32-34 行 执行 类 函数 。 

第 36-45 行 定义 了 一 个 getUrls 的 类 函数 。 这 个 函数 的 作用 是 根据 页 面 变化 的 规律 (每 向 
后 翻 一 页 ，pn 增加 50) ， 将 所 有 的 URL 装 入 一 个 列表 中 去 ， 供 下 一 个 类 函数 调用 。 

第 47~64 行 定 义 了 一 个 spider 的 类 函数 。 这 个 函数 也 参考 了 Scrapy 的 spider。 与 scrapy 不 
同 的 是 Scrapy 使 用 的 是 XPath 过 滤器 ， 而 这 里 使 用 的 是 bs4 的 BeautifulSoup 过 滤 有 用 数据 。 
第 52 行使 用 soup.find all 函数 将 所 有 符合 条 件 的 数据 装 入 了 tagsli 列表 中 。 第 51-61 行使 用 
for 函数 遍历 整个 列表 ， 将 有 效 数据 过 滤 出 来 ， 添 加 到 items 列表 中 ， 供 下 一 个 函数 处 理 。 

第 68~76 行 把 得 到 的 items 列表 写 入 到 最 终 的 数据 保存 文件 “百度 贴吧 _ 权 利 的 游 
戏 .txt” 中 去 。 其 中 还 添加 了 一 个 try 语句 ， 防 止 写 入 文件 失败 。 

第 78-90 行 定义 了 getResponseContent 函数 ， 这 个 函数 的 作用 很 简单 。 从 函数 入 口 接收 
一 个 带 有 中 文字 符 的 Url， 将 其 转换 成 url 编码 后 向 服务 器 提出 请 求 ， 最 后 返回 请 求 结果 。 功 
能 很 简单 ， 这 里 用 单独 一 个 函数 是 为 了 以 后 扩充 功能 。 比 如 使 用 proxy 代理 ， 添 加 headers 
等 。 这 个 就 有 点 类 似 于 Scrapy 框架 中 的 中 间 件 。 一 旦 发 现 朴 虫 被 禁止 ， 就 可 以 在 这 个 函数 中 
做 出 相应 的 修改 ， 避 开封 锁 。 

第 93~95 行 是 _main 函数 ， 实 例 化 GetTiebalnfo 类 。 


6.3.4 Eclipse 调试 


虽然 在 Windows 下 也 可 以 使 用 pdb 模块 对 Python 程序 进行 调试 。Pdb 的 强大 当然 是 无 须 
质疑 ， 但 直观 上 来 说 就 远 远 不 如 Eclipse 了 。 下 面 就 牛刀 小 试 ， 实 验 一 下 Eclipse 的 调试 功能 。 
首先 要 做 的 是 在 程序 中 添加 断 点 ， 也 就 是 程序 运行 中 暂停 中 断 的 位 置 。 在 所 需 中 断 行 的 
最 前 方 ， 行 号 的 前 面 空 白 处 双击 右键 ， 会 出 现 一 个 绿色 气球 的 图 标 ， 表 明 断 点 已 经 设立 成 
功 。 这 里 只 在 41 行 和 60 行 设 置 了 2 个 断 点 ， 如 图 6-40 所 示 。 
ies A- H d bd 
I$ PyDev Package.. 53 = 








D 百度 贴吧 .权利 的 游戏 bxt 
@ D:\Program Files\python 






jetResponseContent (url) 
(htmlContent, Lam) 
11(“{ 5‘ ,attrs=f 








6-40 Eclipse 设置 断 点 
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再 单 击 Eclipse KIRF ie Aine lbs, BEADS. ed PEDES IST k EDT 
始 调试 。 程 序 运 行 到 断 点 处 会 自动 停止 运行 ， 单 击 图 标 栏 的 箭头 图 标 进 行 单 步调 试 。 在 程序 
栏 中 的 箭头 指向 运行 的 位 置 。 可 以 在 变量 标签 中 观察 变量 的 值 。 测 试 完毕 后 可 以 单 击 图 标 栏 
的 停止 图 标 退 出 调试 ， 如 图 6-41 所 示 。 


|| Fie Edit Source Refactoring Navigate Search Project Pydev Run 
r3 ian ei om EE soio a eor 
- +" OT dame soem sere eR 
A Debug = k|-*|* © = D o variables $t i "sen 
4 @ baiduBS4 getCommentinfo.py [Python Run] - 


module» [pydevd.py:1530] 
48 getCommentinfo.py 


E) getCommentinfo © 
7 ul = self-url-split("=") 


leautifulSoup (bs4) 
4- mylog = MyLog (mylog ~ 
m , 


, « i 
a-a xearen 





图 6-41 Eclipse 调试 
配合 log 模块 ， 即 使 程序 出 现 什么 问题 也 可 以 很 容易 地 找到 出 错 的 位 置 ， 方 便 修改 。 


6. bs4 ERZE: 获取 双色 球 中 奖 信息 


在 国内 ， 唯 一 能 合法 暴 富 的 方法 似乎 只 有 彩票 中 奖 了 。 虽 然 人 人 都 知道 中 奖 的 概率 很 
低 ， 但 希望 总 是 存在 的 。 中 奖 的 号 码 虽 然 无 法 直接 推算 出 来 ， 但 根据 概率 计算 将 中 奖 的 概率 
稍微 调 大 点 那 还 是 可 能 的 (据说 所 有 赌场 都 有 这 样 一 条 潜 规则 ， 不 欢迎 数学 家 进入 赌场 ， 就 
是 为 了 防止 客人 计算 概率 。 电 影 《 决 胜 21 点 》 就 是 根据 真实 事件 改编 ， 而 历史 上 最 出 名 的 因 
概率 计算 被 赌场 禁止 入 场 的 人 是 日 本 的 山本 五 十 六 ) 。 在 进行 概率 计算 前 要 做 的 就 是 收集 数 
据 ， 好 在 中 国 福利 彩票 并 不 禁止 收集 数据 进行 概率 计算 。 如 何 计算 概率 不 是 本 章 的 内 容 ， 本 
章 只 负责 将 数据 收集 后 存 入 到 数据 库 中 。 
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6.4.1 目标 分 析 

在 中 彩 网 中 打开 双色 球 的 往 期 中 奖 信息 页 面 ( 这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 的 浏 
览 器 可 能 会 稍 有 区 别 ) 。 网 址 为 http://www.zhew.com/ssq/kaijiangshuju/index.shtml?type=0 , 
如 图 6-42 所 示 。 


ex © [D wwwzzhew.com/ssq/kaijiangshuju/index.shtml?type=0 





ERE | 网 站 地 图 | 0 手机 中 彩 网 | FAN 登录 





彩票 新 闻 ny 。 专题 报道 双色 球 BAe BER s itd 彩民 之 家 HE dd 


REAR 。 政策 ”行业 数据 福彩 3D Ws 全 国 开奖 。 走势 图 ”短信 福彩 公益 AH 3 
中 彩 视频 BB 开奖 视频 the ERS 地 方 彩 种 WHE 63 StS £6 * 


Pp mx 双色 球 模拟 摇 奖 器 | ANASA 历史 同期 号 查询 


首页 PREE 开 奖 公 ae HNS FAR DERMEI PRAS EAN 


FANGTAN 
—À 


uem mes (IR asos 
z- mew ("AMI arare 

mews mom AMAAAAO zozo s » 回回 
mewn mem (fA eO mmm z » BB 


图 6-42 双色球 往 期 中 奖 


在 中 奖 信息 表格 上 鼠标 右 击 ， 选 择 弹 出 菜单 中 的 “查看 框架 的 源 代码 ”。 发 现 这 个 框架 
的 数据 来 源 于 kaijiang.zhew.com/zhew/html/ssg/list. 1..html, Anf 6-43 所 示 。 














ar 727A BERR Gre) o 
<th colspan=" 2^ 中奖 注 数 </thy 
65" rovspare 2'» EB tb 





‘th widthz'135" style=" color:#F00")— F3 /th> 
<th width="45" style="color:#00F" > 二 等 奖 </tim 
“Kw 


en? 12 eno td: 
tat rong >297, 413, 102/ st rong? «/t d» 











643 ”框架 源 代码 


246 


然后 再 到 网 页 中 单 击 “ 下 一 页 ”的 链接 ， 再 次 查看 框架 源 代 码 ， 新 的 框架 数据 来 源 是 
kaijiang.zhcw.com/zhcw/html/ssq/list_2.html。 大 致 明白 URL 的 变化 规律 了 ， 再 回头 测试 一 下 
kaijiang.zhcw.com/zhew/html/ssg/list. 1.html 是 否 正常 ， 返 回 数据 正常 ， 如 图 6-44 所 示 。 


LS c 


开奖 日 期 
2016-08-16 
2016-08-14 
2016-08-11 
2016-08-08 
2016-08-07 
2016-08-04 
2016-08-02 
2016-07-31 


2016-07-28 


期 


Ò kaijiang.zhcw.com/zhcw/html/ssq/list 1.html 


mmmmmeon saw 
AMAMAMMAO ux 
298, 416, 216 


二 直下 六 oa 292,305 


mme som 
POPAAAD = 200,08 
MAMAMOO um 
MMMMAMO xu 
AMMMMMD = 22,200,006 





图 6-44 表格 来 源 网 页 


再 来 看 看 如 何 获 取 表 格 中 的 数据 。 任 选 一 个 双色 球 往 期 中 奖 号 码 的 框架 查看 源 代 码 ， 这 
里 就 选 末 页 kaijiang.zhew.com/zhew/html/ssq/list_100.htm， 如 图 6-45 所 示 。 


D view-source:kaijiang.zhcw.com/zhcw/html/ssq/list_100.html 


<tr> 


<td align="cent er”>2003-04-10</ta> 

<td align=" cent er”>2003014</t > 

<td align="center” style=“padding-left: 10pe:”> 
《em class=" rr" 2034 en? 

<en class=" rr" »054/ en» 

en class=" rr^» 0T en» 

<en class-" r^ 208 en? 


<en class="rr">21/en> 


《em class=" rr*531 / en» 


<em>02</en></td> 
<td><st rong>12, 476, 130¢/strong></td> 
<td align="left” style="color:#999;"><strong>0</strong> 


“to 
<td align" center") strong clas=“re" 0¢/strong></td> 
" center™> 
:/ /wew. zhcw. coM sso/kjgg/" nue al ><ing src-"http 





cent er”>2003-04-06</td> 
<td_align=" cent er">2003013¢/tD 








图 645 分 析 数 据 


在 做 爬虫 时 ， 遇 到 这 种 表格 形式 的 数据 ， 那 就 最 方便 了 。 因 为 它们 都 有 固定 的 标签 ， 可 


以 很 方便 地 获取 数据 。 从 图 6-45 中 可 以 看 出 ， 表 格 中 每 一 


行 的 数据 都 包含 在 一 


对 <tr> 标 签 
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Al. ATO, ESERE Hd e er Peek, AE BEI BAT CLT o 


642 项 目 实施 


【示例 6-5】 还 是 打开 Eclipse， 按 照 上 节 创 建 项 目 、 文 件 的 流程 进行 。 首 先 创 建 项 目 
winningNumBS4， 在 项 目 中 创建 PyDev Module 文件 getWinningNum.py， 再 把 上 节 baiduBS4 
项 目 中 使 用 过 的 mylog.py 复制 到 winningNumBS4 项 目 中 ， 以 备 后 期 调用 。 项 目的 主 文件 
getWinningNum.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python3 

2 #=*= coding; utf=8 =*= 

grer 

4 Created on 2016 年 8 月 7 日 

5 

6 @author: hstking hst_king@hotmail.com 
7T 

8 

9 

10 import re 

11 from bs4 import BeautifulSoup 

12 import urllib.request 

13 from mylog import MyLog as mylog 
14 import codecs 

15 

16 

17 class DoubleColorBallItem(object): 
18 date - None 

19 order = None 

20 redl = None 

EH red2 - None 

22 red3 - None 

23 red4 = None 

24 red5 - None 

25 red6 - None 
26 blue - None 
27 money = None 
28 firstPrize - None 
29 secondPrize = None 
30 
31 class GetDoubleColorBallNumber (object): 
32 "7 "这 个 类 用 于 获取 双色 球 中 奖 号 码 ， 返回 一 个 txt 文件 
33 LAUS 
34 def _ init (self): 
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35 
36 
Bm 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 


.html" 


52 
53 
54 
55 
56 


headers 等 


57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
T3 
74 
75 


self.urls = [] 

self.log = mylog () 

self.getUrls() 

self.items = self.spider(self.urls) 
self.pipelines (self.items) 


def getUrls (self): 


" "获取 数据 来 源 网 页 


URL = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list 1.html' 
htmlContent = self.getResponseContent (URL) 
soup = BeautifulSoup(htmlContent, 'lxml') 
tag = soup.find_all(re.compile('p')) [-1] 
pages = tag.strong.get_text () 
for i in range(1, int(pages) +1): 
url = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list ' + str(i) 


self.urls.append (url) 
self.10g.info(' 添 加 URL:%s 到 URLS \r\n' $url) 


def getResponseContent (self, url): 


tt "这 里 单独 使 用 一 个 函数 返回 页 面 返回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 


ver 
try: 
response = urllib.request.urlopen (url) 
except: 
self.log.error('Python 返回 URL:%s 数据 失败 \r\n' $url) 
else: 
self.log.info('Python 返回 URUL:%s 数据 成 功 \r\n' $url) 
return response.read() 


def spider(self,urls): 


"这 个 函数 的 作用 是 从 获取 的 数据 中 过 滤 得 到 中 奖 信息 

ven 

items = [] 

for url in urls: 
htmlContent = self.getResponseContent (url) 
soup = BeautifulSoup(htmlContent, 'lxml') 
tags = soup.find_all('tr', attrs={}) 
for tag in tags: 
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76 if tag.find('em'): 


yi item = DoubleColorBallItem() 

78 tagTd = tag.find all('td') 

79 item.date - tagTd[0].get text() 

80 item.order - tagTd[1].get text() 

81 tagEm = tagTd[2].find all('em') 

82 item.redl = tagEm[0].get text() 

83 item.red2 = tagEm[1].get text() 

84 item.red3 = tagEm[2].get text() 

85 item.red4 = tagEm[3].get text() 

86 item.red5 = tagEm[4].get text() 

87 item.red6 = tagEm[5].get text() 

88 item.blue - tagEm[6].get text() 

89 item.money = tagTd[3].find('strong').get text() 

90 item.firstPrize = tagTd[4].find('strong').get text() 

91 item.secondPrize = tagTd[5].find('strong').get text() 

92 items.append (item) 

93 self.log.info("#MAWA:%s 的 数据 成 功 ' $(item.date)) 

94 return items 

95 

96 def pipelines (self, items) : 

97 fileName = ' 双 色 球 .txt' 

98 with codecs.open(fileName, 'w', 'utf-8') as fp: 

99 for item in items: 

100 fp.write('$s $s Nt $s $s $s $s $s $s $s Nt $s Nt $s $s 
\r\n' 

101 


%(item.date, item.order, item. redl, item. red2, item. red3, item.red4,item.red5,item. 


red6,item.blue, item.money, item. firstPrize, item.secondPrize) ) 


102 self.1og.info(' 将 日 期 为 :ss 的 数据 存 入 "%s"...' $(item.date, 
fileName) ) 

103 

104 

105 if name == ' main ': 


106 GDCBN = GetDoubleColorBallNumber () 


鼠标 左 键 选取 项 目 文件 getWinningNum.py， 然 后 单 击 Eclipse 的 运行 图 标 并 复制 ， 最 终 
得 到 结果 如 图 6-46 所 示 。 
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6-46 运行 getWinningNum.py 


很 顺利 地 将 息 取 的 结果 保存 到 了 txt 文件 中 。winningNumBS4 项 目 暂时 告 一 段落 ， 下 一 
节 继 续 挖掘 。 


6.4.3 ”保存 结果 到 Excel 

在 Windows 下 ， 最 常见 的 数据 保存 工具 是 Excel。 下 面 尝 试 将 结果 保存 到 Excel 中 去 。 

在 Python 的 标准 库 中 ， 并 没有 直接 操作 Excel 的 模块 。 好 在 还 有 永远 不 会 让 人 失望 的 第 
三 方 库 。 百 度 一 下 最 流行 的 操作 Excel 的 Python 库 就 是 xlrd 和 xlwt 了 。 其 中 xlrd 负责 从 
Excel 中 读 取 数据 ， 而 xlwt 则 是 将 数据 写 入 到 Excel 中 去 。 这 里 我 们 使 用 xlwt 模块 。 

从 第 三 方 库 中 安装 xlwt 模块 很 简单 ， 一 条 命令 足 矣 。 执 行 命令 : 


pip install xlwt 








执行 结果 如 图 6-47 所 示 。 


画 C\Windows\system32\cmdere 


icrosoft Windows (if 6.1.7601] 
权 所 有 «c? 2009 Microsoft Corporation. (RRMA. 





s\Users\king>pip install xlut 

llecting xlut 

Down loading xlutei.i.2«py2.pyJenone-any.uhl (99kB) 
PET 


1 71kB 48kB/s et 
1 81kD 55kBr 
1 92kB 54 


uccessfully installed xlut-1.1.2 


2 \Users\king> 








6-47 C xlwt 模块 
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至 此 xlwt 模块 已 安装 完毕 。xlwt 模块 使 用 很 简单 。 


【示例 6-6】 先 写 一 个 简单 的 Python 程序 来 测试 一 下 。 在 Eclipse 中 创建 一 个 test 项 目 ， 
并 在 项 目 中 创建 一 个 名 为 excelWrite.py 的 PyDev Module 文件 。excelWrite.py 的 内 容 如 下 : 


v0 OID U4 ®wWN PR 


PR PP PP RB 
Op wwN PP 


16 


#!/usr/bin/evn Python3 
#-*- coding: utf-8 -*- 


Created on 20164F8 H 17 H 


@author: hstking hst_king@hotmail.com 
wee 


import xlwt 


if ^ name == ' main '; 
book - xlwt.Workbook(encoding-'utf8', style compression-0) 
sheet - book.add sheet('dede') 
sheet.write(0, 0, 'hstking') 
sheet.write(1, 1, ' 中 文 测试 ' .encode ('utf8')) 
book.save('d:\\1.xls') 


很 简单 的 一 个 程序 。 首 先 使 用 xlwt.Workbook 函数 创建 一 个 工作 短 ， 如 果 有 中 文 最 好 是 
输入 中 文 的 字符 编码 。 然 后 在 工作 德里 创建 一 个 表 ， 再 就 是 往 表 里 填 入 数据 了 。 逻 辑 简单 ， 
结构 也 很 简单 。 最 后 就 是 保存 工作 秒 到 文件 中 去 。 

单 击 Eclipse 的 运行 图 标 ， 得 到 的 结果 如 图 6-48 所 示 。 
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6-48 测试 xlwt 模块 


根据 getWinningNum.log 的 实际 情况 〈 也 就 是 程序 输出 数据 的 形式 ) ， 将 excelWrite.py 
稍 做 变化 就 可 以 用 了 。 回 到 winningNumBS4 项 上 目下， 创建 一 个 新 的 PyDev Module 文件 
save2excel.py、 save2excel.py 和 getWinningNum.py 是 在 同一 目录 下 的 (这 点 很 重要 ， 如 果 不 
在 同一 目录 下 ，getWinningNum.py 想 把 save2excel.py 当 模 块 使 用 会 费 很 多 功夫 ) 。 





【示例 6-7] Sava2excel.py 的 内 容 如 下 : 


1 #!/usr/bin/evn Python3 
2 #-*- coding: utf-8 -*- 
3 un 
4 Created on 2016698991799 
5 
6 @author: hstking hst_king@hotmail.com 
Jou 
8 
9 import xlwt 
10 
11 
12 class SavaBallDate (object): 
Hs def init (self, items): 


14 self.items = items 

H5 self.run(self.items) 

16 

abr] def run(self,items): 

18 fileName = ' 双 色 球 .xls' 

19 book = xlwt.Workbook (encoding='utf8') 
20 sheet-book.add sheet('ball', cell overwrite ok=True) 
21 sheet.write(0, 0, ' 开 奖 日 期 ') 

22 sheet.write(0, 1, ' 期 号 ') 

23 sheet.write(0, 2, 'Z[1') 

24 sheet.write(0, 3, '#2') 

25 sheet.write(0, 4, '£[3') 

26 sheet.write(0, 5, '£[4') 

27 sheet.write(0, 6, '45') 

28 sheet.write(0, 7, '£[6') 

29 sheet.write(0, 8, 'Wi') 

30 sheet.write(0, 9, ' 销 售 金额 ') 

31 sheet.write(0, 10, '—^&X') 

32 sheet.write(0, 11, '—^4*X€') 

33 i=l 

34 while i <= len(items) : 

35 item = items[i-1] 

36 sheet.write(i, 0, item.date) 
3 sheet.write(i, 1, item.order) 
38 sheet.write(i, 2, item.redl) 
99 sheet.write(i, 3, item.red2) 
40 sheet.write(i, 4, item.red3) 
41 sheet.write(i, 5, item.red4) 
42 sheet.write(i, 6, item.red5) 
43 sheet.write(i, 7, item.red6) 
44 sheet.write(i, 8, item.blue) 
45 sheet.write(i, 9, item.money) 
46 sheet.write(i, 10, item.firstPrize) 
47 sheet.write(i, 11, item.secondPrize) 
48 i +=1 

49 book. save (fileName) 

50 

51 

52 

Beha nome == mAatn Nr 

54 pass 


【示例 6-8】 将 原来 的 getWinningNum.py 稍 做 修改 ， 修 改 后 的 getWinningNum.py 的 内 容 


如 下 : 


253 


(0-0 050NH 


#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on 2016 年 8 月 7 日 


@author: hstking hst king@hotmail.com 


import re 

from bs4 import BeautifulSoup 
import urllib.request 

from mylog import MyLog as mylog 
from save2excel import SavaBallDate 
import codecs 


class DoubleColorBallItem(object) : 


date = None 
order = None 
redl = None 
red2 = None 
red3 = None 
red4 = None 
red5 = None 
red6 = None 
blue = None 


money = None 
firstPrize = None 
secondPrize = None 


class GetDoubleColorBallNumber (object): 


33 "7 这 个 类 用 于 获取 双色 球 中 奖 号 码 ， 返回 一 个 txt 文件 

34 DD 

35 def init (self): 

36 self.urls = [] 

37 self.log = mylog() 

38 self.getUrls() 

39 self.items = self.spider(self.urls) 

40 self.pipelines(self.items) 

41 self.log.info('beging save data to excel \r\n') 

42 SavaBallDate (self.items) 

43 self.log.info('save data to excel end ...\r\n') 

44 

45 

46 def getUrls (self): 

47 * 1 "获取 数据 来 源 网 页 

48 E 

49 URL = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list 1.html' 

50 htmlContent = self.getResponseContent (URL) 

51 soup = BeautifulSoup(htmlContent, 'lxml') 

52 tag = soup.find all(re.compile('p'))[-1] 

53 pages = tag.strong.get text() 

54 for i in range(1, int(pages)+1): 

55 url = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list ' + str(i) 
x heme 

56 self.urls.append (url) 

57 self.log.info('#/M URL:$s 到 URLS \r\n' url) 

58 

59 def getResponseContent (self, url): 

60 '"'' 这 里 单独 使 用 一 个 函数 返回 页 面 返 回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 
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headers 等 


61 ver 
62 try: 
63 response = urllib.request.urlopen (url) 
64 except: 
65 self.log.error('Python 返回 URL:%s 数据 失败 \r\n' $url) 
66 else: 
67 self.log.info('Python 返回 URUL:%s 数据 成 功 \r\n' gurl) 
68 return response.read() 
69 
70 
m def spider(self,urls): 
1e "7 "这 个 函数 的 作用 是 从 获取 的 数据 中 过 滤 得 到 中 奖 信息 
73 ven 
74 items = [] 
95 for url in urls: 
76 htmlContent = self.getResponseContent (url) 
TT soup = BeautifulSoup(htmlContent, 'lxml') 
78 tags = soup.find all('tr', attrs={}) 
79 for tag in tags: 
80 if tag.find('em'): 
81 item = DoubleColorBallItem() 
82 tagTd = tag.find all('td') 
83 item.date = tagTd[0].get text () 
84 item.order = tagTd[1].get text () 
85 tagEm = tagTd[2].find all('em') 
86 item.redl = tagEm[0].get text() 
87 item.red2 = tagEm[1].get text() 
88 item.red3 = tagEm[2].get text() 
89 item.red4 = tagEm[3].get text() 
90 item.red5 = tagEm[4].get text() 
91 item.red6 = tagEm[5].get text() 
92 item.blue = tagEm[6].get text() 
93 item.money = tagTd[3].find('strong').get text() 
94 item.firstPrize = tagTd[4].find('strong').get text() 
95 item.secondPrize = tagTd[5].find('strong').get text() 
96 items.append (item) 
97 self.1og.info(" 获 取 日 期 为 :ss 的 数据 成 功 ' %(item.date)) 
98 return items 
99 
100 def pipelines (self, items) : 
101 fileName = ' 双 色 球 .txt' 
102 with codecs.open(fileName, 'w', 'utf-8') as fp: 
103 for item in items: 
104 fp.write('$s $s Nt $s $s $s $s $s $s $s Nt $s Nt $s %s 
\r\n' 
105 


%(item.date, item.order, item. red1, item. red2, item. red3,item.red4,item.red5,item. 
red6,item.blue, item.money, item. firstPrize, item.secondPrize) ) 


106 self.log.info("HAWA:%s 的 数据 存 入 "%s"...' $(item.date, 
fileName)) 

107 

108 

109 if name ==" main ': 

110 GDCBN = GetDoubleColorBallNumber () 


实际 上 就 是 导入 了 save2excel 模块 后 再 在 _init 函数 中 添加 了 3 17, ik save2excel 处 理 
了 一 下 息 取 的 数据 而 已 。 
单 击 Eclipse 图 标 栏 的 运行 图 标 ， 最 终 得 到 的 结果 如 图 6-49 所 示 。 
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6-49 ”保存 结果 到 Excel 


至 此 ，winningNumBS4 项 目 已 全 部 完成 。 这 里 要 注意 的 是 ， 不 要 频繁 地 跑 这 个 仆 虫 ， 在 
一 定 的 时 间 内 多 次 仆 取 会 引起 网 站 反 息 忠 人 员 的 注意 。 得 到 数据 就 够 了 ， 没 必要 耗费 网 站 的 
网 络 资源 。 


6.4.4 ”代码 分 析 


winningNumBS4 项 目 中 只 有 3 个 Python 文件 ， 分 别 是 getWinningNum.py、save2excel.py 
和 mylog.py。 其 中 mylog.py 和 上 个 项 目 中 的 mylog.py 是 一 样 的 (实际 上 所 有 的 项 目 中 使 用 
的 都 是 同一 个 mylog.py) ， 这 个 可 以 略 过 。 主 要 是 看 主 文件 getWinningNum.py 和 
save2excel.py o 

4 getWinningNum.py 文件 。 第 10-15 行 是 导入 程序 所 需 的 模块 ， 其 中 包含 了 Python 
标准 模块 和 自 定义 模块 。 顺 便 演示 了 导入 模块 的 几 种 方式 。 

第 18~30 行 定义 了 一 个 类 。 这 个 类 包含 了 获取 数据 的 所 有 项 。 这 种 写法 借鉴 了 Scrapy 的 
items 的 写法 。 第 32-106 行 定义 的 模块 负责 获取 数据 和 保存 数据 。 其 中 35~43 行 是 类 的 解析 
函数 (Python 是 没有 解析 函数 这 个 概念 的 ， 但 _init_ 函数 所 起 的 作用 基本 上 就 是 解析 函数 
T) 。 当 类 实例 化 时 就 自动 运行 _init 函数。 

第 46-57 行 的 getUrls 函数 作用 是 从 网 站 中 获取 所 有 需要 息 取 的 网 页 的 URL， 然 后 将 这 
些 url 加 入 到 urls 列表 中 去 ， 以 备 后 面 的 函数 调用 。 第 59~68 fT getResponseConent 函数 作用 
是 从 一 个 url 中 获取 数据 。 这 个 函数 可 以 用 一 句 话 代替 ， 之 所 以 写成 函数 是 为 了 加 入 headers 
和 proxy 更 加 方便 。 

第 71-98 TARA RRS, QTM SREB) items 列表 中 供 后 面 的 函数 
调用 。 第 100~106 行 pipelines 函数 将 items 列表 中 的 数据 写 入 txt 文件 中 。 那 么 将 数据 写 入 
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Excel 是 哪个 函数 呢 ? 是 在 第 42 fT. Minit 函数 中 调用 了 save2excel 模块 中 的 
SaveBallDate 函数 。 

最 后 的 第 109-110 行 是 主 函 数 ， 它 将 实例 化 GetDoubleColorBallNumber 类 。 使 
GetDoubleColorBallNumber 类 的 _init ”函数 自动 运行 。 

至 于 save2excel.py 就 比较 简单 了 。 第 9 行 导 入 了 xlwt 模块 。 第 13~14 行 初 始 化 了 类 变 
量 ， 调 用 类 函数 。 第 17-49 行 就 是 很 简单 地 遍历 items 列表 ， 然 后 将 列表 中 的 数据 保存 到 
Excel 中 去 。 


bs4 EEFE : 获取 起 点 小 说 信息 


现在 娱乐 消费 好 贵 。 最 便宜 最 方便 的 娱乐 消费 莫 过 于 在 网 上 看 小 说 了 《网 游 还 需要 充 
值 ， 看 电影 一 次 至 少 两 小 时 ) ， 看 小 说 就 绕 不 开 原创 中 文 小 说 网 站 一 一 起 点 中 文 。 笔 者 看 小 
说 不 喜欢 那 种 看 一 章 等 一 章 的 看 法 ， 说 不 定 一 不 小 心 小 说 就 无 限期 的 断 更 了 ， 还 是 直接 看 那 
HOSEA HBR. ATED bs4 扑 虫 获取 起 点 中 文 网 所 有 的 完 本 小 说 信息 ， 并 将 其 保 
存 到 MySQL 中 去 。 


6.5.0 目标 分 析 
打开 起 点 中 文 网 ， 搜 索 所 有 的 完 本 小 说 。 在 浏览 器 中 打开 网 页 https://www.qidian.com， 
鼠标 单 击 上 方 栏目 的 全 部 作品 ， 然 后 再 将 左 侧 的 状态 修改 为 完 本 ， 如 图 6-50 所 示 。 


D 2era geran x ht X 





httes://wew.qidian.com/ail?’a 


起 点 中 文 网 
=o Te 











6-50 选择 小 说 类 型 


看 看 当前 网 页 的 网 址 是 https:/www.qidian.com/all?action=1l&orderId=&page=1l&style= 
l&pageSize- 20&siteid=1&pubflag=0&hiddenField=0。 找 到 下 一 页 的 链接 ， 鼠 标 单 击 该 链接 进 
入 下 一 页 。 这 一 页 的 网 址 是 https://www.qidian.com/all?action=1 &orderld=&style=1&pageSize 
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=20&siteid=1&pubflag=0&hiddenField=0&page=2。 把 最 后 一 个 参数 page=2 修改 为 page=1 jill 
iA— Fo AIAG https:/www.qidian.com/all?action=1 &orderld=&style=1 &pageSize=20&siteid 
=1&pubflag=0&hiddenField=0&page=1 的 内 容 和 页 面 https://www. qidian. com/all?action=1& 
orderld= &page=l&cstyle=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0 的 内 容 是 一 样 
的 。 现 在 需要 扑 的 页 面 命名 规则 已 经 有 了 ， 只 需要 修改 最 后 那个 page 的 参数 就 可 以 了 。 


总 共 需 要 疏 取 多 少 页 呢 ? 查看 页 面 下 方 的 页 面 选 择 位 置 ， 共 有 2292 页 


穿越 者 俱乐部 


[yere ET» Dig E 当 有 人 告诉 你 ， 地 球 上 ， 还 存在 着 无 数 
蒜 移 步 新 书 支 持 ! 幻想 世界 。 而 你 ,具备 弃 越 到 那 














paps RR aI SE FANHA MANB ALNE COR 
作家 助手 ”起 点 国际 版 
n 帮助 中 心 “提交 建议 “动漫 频道 ”举报 中 心 


图 6-51 总 页 数 


在 网 页 的 任意 空白 处 右 击 ， 选 择 弹 出 菜单 中 的 “查看 网 页 源 代码 ”， 
分 ， 如 图 6-52 所 示 。 


a target" blank Cine 
merent > Pronk. quia, con info/2 30867 
Hark’ dae-oid qd B60” dat bid S 


ER, (EL BRAZ. NU 
TIL aae Aman ges EXSEEIE- LEKI 





(di i 
"ode aid irge”y <> = /bock.aidion. conf info/ 1639193" 











6-2 ”页面 源码 
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， 如 图 6-51 所 示 。 


找到 表格 的 开头 部 


在 页 面 源码 中 发 现 ， 全 本 小 说 标签 都 是 以 <li data-rid=”**> 开 头 的 。 找 到 规律 后 就 好 办 
了 ,直接 按照 这 个 规律 构建 过 滤 规 则 就 可 以 了 。 


6.5.2 项目 实 施 

打开 Eclipse ， 创 建 项 目 qidianBS4， 在 项 目 中 创建 PyDev Module 文件 
completeBook.py。 把 上 节 winningNumBS4 项 目 中 使 用 过 的 mylog.py 复制 到 qidianBS4 mA 
中 ， 以 备 后 期 调用 。 

【示例 6-9】 项 目的 主 文件 completeBook.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
$-*- coding: utf-8 -*- 





Created on 201648 H 11H 


@author: hstking hstking@hotmail.com 
ver 


© 0-100550 Ww ndO 


from bs4 import BeautifulSoup 


[n 
o 


import urllib.request 


m 
[m 


import re 


12 import codecs 

13 import time 

14 from mylog import MyLog as mylog 
15 from save2mysql import SavebooksData 
16 

17 

18 class BookItem (object): 

ilk) categoryName = None 

20 middleUrl = None 

21 bookName = None 

22 wordsNum = None 

23 updateTime = None 

24 authorName = None 

25 

26 

27 class GetBookName (object) : 

28 def init (self): 

29 self.urlBase - 


'"https://www.qidian.com/all?action-1&orderId-&style-l&pageSize-20&siteid-1&pub 
flag-0&hiddenField-0&page-1" 

30 self.log - mylog() 

31 self.pages = self.getPages (self.urlBase) 
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32 self.booksList = [] 


33 # self.spider(self.urlBase, 5) 

34 self.spider(self.urlBase, self.pages) 

35 self.pipelines (self.booksList) 

36 self.log.info('begin save data to mysql\r\n') 

37 SavebooksData (self.booksList) 

38 self.log.info('save data to mysql end ...\r\n') 

S9 

40 

41 def getPages(self,url): 

42 " "获取 总 页 数 ''' 

43 htmlContent = self.getResponseContent (url) 

44 pattern = re.compile('data-pageMax=".*?"') 

45 pageStr = pattern.search (htmlContent) .group() 

46 pageMax = pageStr.split('"')[1] 

47 print("pageMax - $s" $pageMax) 

48 return int (pageMax) 

49 

50 

51 def getResponseContent (self, url): 

52 try: 

53 response - urllib.request.urlopen(url, timeout-3) 

54 except: 

55 self.log.error('Python 返回 URL:%s 数据 失败 ' url) 

56 return None 

Sy else: 

58 self.log.info('Python 返回 URU:%s 数据 成 功 ' $url) 

59 return response.read().decode('utf-8') 

60 

61 

62 def spider(self, url, pages): 

63 urlList = url.split('-') 

64 for i in range(1, pages + 1): 

65 urlList[-1] = str(i) 

66 newUrl = '='.join(urlList) 

67 htmlContent = self.getResponseContent (newUrl) 

68 if not htmlContent: 

69 self.mylog.error(' 未 获取 到 页 面 内 容 ') 

70 continue 

71 soup = BeautifulSoup(htmlContent, 'lxml') 

TES tags = soup.find all('li', attrs={'data-rid': 
re.compile('Nd(1,2)')]) 

"3, for tag in tags: 
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74 item = BookItem() 


15 item.categoryName = tag.find('a', attrs={'class': 'go-sub- 
type'}) .get_text () 

76 item.middleUrl = tag.find('h4').a.get ("href") 

TI. item.bookName = tag.find('h4').a.get text() 

78 item.wordsNum = tag.find('p', 
attrs-('class':'update']).span.get text() 

79 item.updateTime - None 

80 item.authorName - tag.find('a', 


attrs-('class':'name']).get text() 


81 self.booksList.append (item) 

82 self.1og.info(' 获 取 书 名 为 <<ss>> 的 数据 成 功 ' $item.bookName) 

83 

84 

85 def pipelines (self,bookList): 

86 bookName = ' 起 点 完 本 小 说 .txt' 

87 nowTime = time.strftime('%Y-%m-%d %H:%M:%S\r\n', time.localtime()) 

88 with codecs.open(bookName, 'w', 'utf8') as fp: 

89 fp.write('run time: %s' %nowTime) 

90 for item in self.booksList: 

91 fp.write('$s Nt $s \t\t $s \t $s \t $s \r\n' 

92 $(item.categoryName, item.bookName, item.wordsNum, 
item.updateTime, item.authorName)) 

93 self.1og.info(' 将 书 名 为 <<ss>> 的 数据 存 入 "ss". .." 
$(item.bookName, bookName) ) 

94 

95 if name == ' main ': 


96 GBN = GetBookName () 


主 程序 部 分 已 经 完成 了 。 


6.5.3 ”保存 结果 到 MySQL 
因为 最 后 还 需要 将 结果 保存 到 MySQL 中 去 ， 所 以 还 得 添加 一 个 自 定义 的 模块 〈 也 就 是 
一 个 自 建 Python 程序 ) 。 
【示例 6-10】 在 qidianBS4 项 目下 ，completeBook.py 的 同 级 目录 中 创建 一 个 PyDev 
Module 文件 save2mysql.py。save2mysql.py 的 内 容 如 下 : 
1 #!/usr/bin/evn python3 
2 $4-*- coding: utf-8 -*- 
Zum 
4 Created on 2016998991769 
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@author: hstking hst_king@hotmail.com 


5 
6 
Jou 
8 
9 


import pymysql 


10 


11 class SavebooksData (object): 


12 
13 
14 
15 
16 
17 
18 
HII 
20 
D 
22 
23 
24 
25 
26 
27 
28 
29 


wordsNum, 


def init (self, items): 
self.host = '192.168.1.80' 
self.port = 3306 
self.user = 'crawlUSER' 
self.passwd = 'crawll23' 
self.db = 'bs4DB' 


self.run(items) 


def run(self, items): 
conn = pymysql.connect (host=self.host, 
port=self.port, 
user=self.user, 
passwd=self.passwd, 
db-self.db) 
cur - conn.cursor() 
for item in items: 
cur.execute("INSERT INTO qiDianBooks (categoryName, 
updateTime, authorName) values($s, $s, $s, $s, $s)", 


(item.categoryName, item.bookName, item.wordsNum, item.updateTime, 


item.authorName)) 


30 cur.close() 

31 conn.commit () 

32 conn.close() 

33 

34 

35 146 Mame == !_ main MG 
36 pass 


bookName, 


至 此 ， 该 项 目 中 的 所 有 代码 已 经 完成 了 。 因 为 要 将 数据 保存 到 远程 MySQL 服务 器 ， 首 
先 得 在 MySQL 服务 器 上 创建 好 数据 库 和 表 。 在 第 5 3€ Scrapy 项 目 中 就 创建 过 一 个 MySQL 
服务 器 ， 并 分 别 在 Windows 和 Linux 系统 上 安装 了 Python 中 支持 MySQL 的 模块 
Pymysql3。 这 里 就 直接 使 用 现成 的 MySQL 服务 器 就 可 以 了 。 与 Scrapy 项 目 不 同 的 是 ， 本 节 
存储 数据 到 MySQL 服务 器 是 远程 存储 ，Scrapy 项 目的 存储 是 本 地 存储 。 本 机 与 MySQL 服 
务 器 的 关系 如 图 6-53 所 示 。 
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Linux 


1P:192.168.2.99 1P:192.168.2.80 
PC Linux MySQL Server 


图 6-53 ”网络 关系 图 


使 用 Putty 登录 到 Linux。 进 入 MySQL 为 bs4 项 目 创建 一 个 数据 库 ， 并 为 qidianBS4 项 
目 创建 一 个 表 。 
在 Linux 系统 下 登录 到 MySQL 后 ， 执 行 命令 : 


CREATE DATABASE bs4DB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 
use bs4DB; 
CREATE TABLE qiDianBooks( 
-» id INT AUTO INCREMENT, 
-» categoryName char(20), 
-» bookName char(20), 
-» wordsNum char(10), 
-» authorName char(20), 
-» PRIMARY KEY(id) )ENGINE-InnoDB DEFAULT CHARSET-utf8; 


创建 一 个 名 为 bs4DB 的 数据 库 ， 并 在 数据 库 中 建立 一 个 qiDianBooks 的 表 ， 所 有 编码 都 
使 用 utf 编码 ， 执 行 结果 如 图 6-54 所 示 。 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


;' or '\h' for help. Type 'Ac' to clear the current input statement. 


bookName char(20), 
|wordsNum char(10), 


jauthorName char(20), 








图 6-54 ”创建 数据 库 和 表 
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随后 为 登录 用 户 分 配 权限 ， 执 行 命令 : 
GRANT all privileges ON bs4DB.* to crawlUSER@all IDENTIFIED BY 'crawll23'; 
GRANT all privileges ON bs4DB.* to crawlUSER@localhost IDENTIFIED BY 


'craw1123'; 
GRANT all privileges ON bs4DB.* to crawlUSER@192.168.2.99 IDENTIFIED BY 


'craw1123'; 


执行 结果 如 图 6-55 所 示 。 





mysql> GRANT all privileges ON bs4DB.* to crawlUSERGall IDENTIFIED BY 'crawl123' 
aa OK, 0 rows affected (0.00 sec) 
mysql> GRANT all privileges ON bs4DB.* to crawlUSER@localhost IDENTIFIED BY 'cra 
Query OK, 0 rows affected (0.00 sec) 


Imysql> GRANT all privileges ON bs4DB.* to crawlUSERG192.168.2.99 IDENTIFIED BY ' 


Query OK, 0 rows affected (0.00 sec) 





6-55 MySQL 用 户 权限 


这 三 条 命令 的 作用 分 别 是 : 允许 crawlUSER 用 户 远程 登录 ， 人 允许 crawlUSER 用 户 本 地 
登录 ， 人 允许 crawlUSER 从 192.168.2.99 这 个 IP 登录 。 

这 里 需要 说 明 的 是 ，crawlUSER 这 个 用 户 在 Scrapy 项 目 中 已 经 创建 过 了 ， 如 果 没 有 创建 
这 个 用 户 ， 则 需要 在 MySQL 中 执行 命令 : 

INSERT INTO mysql.user (Host,User, Password) 
VALUES ("%", "crawlUSER" , password ("crawl123") ); 


INSERT INTO mysql.user (Host,User, Password) 
VALUES ("localhost", "crawlUSER", password ("crawl123") ); 


MySQL 服务 器 已 经 准备 好 了 ， 可 以 运行 程序 了 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 
行 该 项 目 ， 得 到 的 结果 如 图 6-56 所 示 。 





T- H O a DE EE 


= 6 completeBook B 起 点 完 本 小 说 txt 只 
M > lrun time: 2016-08-17 20:16:16 

2[Sen/eenses] se aza 1292425 16-08-17 18:35 eee | 
3 [seu/aSEagzu] mE uses 3305823 16-08-17 18:00 aapa 
i[sufime/msesua]  s-Ruemseü ke 97083 16-08-17 15:20 E 








4 (b qidianBs4 
B completeBooklog 











P) completeBook.py [ene/es tee ] acrswseraue 2066407 16-08-17 14:22 * 
B myi [sex/sessmz] suse 773861 16-08-17 13:19 E 
Bary 7[ztw/sastw] eee 218772 16-08-17 09:54 pegasse» 
B) save2mysql.py S[ums/szzees] sser 2(s2%) 1070333 16-08-17 03:10 amra 
D 起 点 完 本 小 说 bd 9[seu/senaes] seuss mye 1159573 16-08-16 23:11 "R i 
B DAProgram Files\python 10 (eaaa azanza 645131 16-08-16 22:01 eexans 
2 EP neteescenc 142200 16-0 
D baiduBS4 [zms/umezse] snibsasuerse 1208686 16-08-17 10:03 mis 
3 helloPython [zes/ueezse] s+ reme | &e15es 16-08-17 09:51 axeEe 
les eer aenn 1292156. 16.08.16 16:26 








6-56 run completeBook.py 
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保存 到 本 地 的 文件 内 容 有 乱码 ， 是 不 是 ? 没关系， 用 Windows 自 带 的 记事 本 打开 就 没有 
只 是 编码 问题 。 再 来 看 看 保存 到 远程 的 MySQL。 使 用 pytty 登录 到 Linux， 连 接 到 
MySQL 服务 器 后 ， 在 MySQL 里 执行 命令 : 


use bs4DB; 
select * from qiDianBooks; 


执行 的 结果 如 图 6-57 所 示 。 


8572 | 16-06-28 14:28 | yangch... 
[武侠 /传统 武侠 ] 1 Ket 

| 6519 1 16- se 28 14:28 | EPR 
【玄幻 /东方 玄幻 ] 

1 88016 1 16- o 12 13:56 | RER 
[都 市 /都 市 生活 ] ib 

1 7320 i 3er zs 14:28 | 晚秋 .QD 
[都 市 /青春 校园 ] 1 穿 红 内 裤 的 男 老师 


1 5398 1 16-06-28 14:28 | 柳 三 变 1 
【武侠 /武侠 幻想 ] 华 


1 792 

[职场 /娱乐 明星 ] 

| 1799849 | 16-i 7 is 15:31 | 黯然 销魂 
{武侠 /武侠 幻想 ] TE 
| 2045 1 16- o6- 28 14:26 | 144 
【科幻 /未 来 世界 ] | BEARRIK 
| 19017 | 16-1 06- 28 14:28 | 龙 神 将 .QD 
[科幻 /未 来 世界 ] 1 R 新 的 故事 ) 
| 43686 | 16-06-28 14:28 | 龙 神 将 .QD 


1 华山 论 
| 16-08-03 17:56 | MALL 
1 


12396 rows in set (0.06 sec) 





Inysqi» ff 
FA 6-57 MySQL 保存 结果 


保存 的 结果 是 12396 条 ， 而 网 站 上 显示 所 有 的 全 本 小 说 是 14380 本 ， 大 约 有 2000 本 小 说 
没有 被 录 上 。 稍 微 修 改 一 下 程序 ， 可 以 从 log 中 得 到 哪些 小 说 没有 被 息 取 。 笔 者 大 致 检查 了 
一 下 ， 有 一 些小 说 记录 的 标签 与 笔者 设置 的 标签 不 太一 样 ， 如 果 需 要 读 取 完 整 的 列表 请 读者 
自行 修改 一 下 。 另 外 ， 这 个 程序 的 瑕 疣 在 于 MySQL 保存 数据 时 使 用 的 都 是 char 类 型 ， 如 果 
要 追求 完美 ， 可 以 将 日 期 改 成 Date 类 型 ， 将 字数 改 成 int 类 型 等 。 


6.5.4 代码 分 析 


项 目 qidianBS4 中 有 3 个 Python 程序 ， 其 中 mylog.py 无 须 再 解释 了 ， 这 里 需要 分 析 的 只 
有 completeBook.py 和 save2mysql.py。 

completeBook.py 中 第 9~15 行 是 导入 需要 的 模块 。 第 18~24 行 是 仿照 Scrapy 建立 的 一 个 
item 类 。 第 27-93 行 是 自 定义 类 GetBookName， 用 于 从 起 点 中 文 网 站 获取 全 本 小 说 的 信息 。 

第 27~38 行 是 GetBookName 类 的 “解析 函数 ”。 第 33 行 调用 了 spider 类 函数 将 所 有 的 
数据 保存 到 类 变量 self.booksList 列表 中 。 第 34 和 36 行 分 别 调用 了 selftpipelines 函数 和 
SavebookData 函数 ， 将 所 怜 取 的 数据 保存 到 txt 文件 和 MySQL 远程 服务 器 中 。 

第 41~48 行 是 从 网 站 起 始 页 面 中 获取 了 总 共 的 页 数 。 因 为 这 个 总 页 数 并 不 是 单独 包含 在 
某 个 标签 内 的 ， 所 以 这 里 使 用 re 模块 将 这 个 页 数 过 滤 出 来 。 
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第 51~59 行 的 getResponseContent 函数 还 是 用 于 返回 从 URL 中 得 到 的 原始 数据 。 

第 62~82 行 的 spider 函数 使 用 bs4 模块 从 原始 数据 中 过 滤 出 所 需要 的 数据 ， 然 后 将 数据 
保存 到 了 selfbooksList 列表 中 去 。 

第 85~93 行 的 pipelines 函数 将 selfbookList 列表 中 的 数据 保存 到 txt 文件 。 

第 95~96 行 是 _main_ 程序， 只 有 一 条 命令 ， 作 用 是 实例 化 GetBookName 类 。 


6.6 bs4 EEREN : 获取 电影 信息 


这 一 节 的 内 容 还 是 跟 娱 乐 有 关 ， 从 网 络 上 获取 电影 。 影 视 网 站 会 每 天 都 有 新 的 电影 上 
架 ， 限 于 页 面 的 篇 幅 ， 每 页 显示 的 电影 有 限 。 如 果 想 找 一 部 心仪 的 电影 八 怕 得 翻 遍 整个 网 
站 ， 当 然 也 可 以 使 用 百度 的 高 级 搜索 和 网 站 自身 的 搜索 ， 但 最 方便 的 还 是 自己 写 个 候 虫 ， 每 
天 让 它 爬 一 次 ， 就 可 以 知道 有 什么 新 电影 上 架 了 。 


6.6.1 目标 分 析 


这 次 爬虫 的 目标 网 站 是 http://dianying.2345.comv, MERMER FLEX IR T 4E] B RES 
在 网 站 打开 搜索 ， 在 年 代 中 选择 2016， 得 到 的 结果 如 图 6-58 所 示 。 
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图 6-58 Rese eee H 


从 图 片上 看 ， 这 个 站 点 和 上 节 的 起 点 找 书 没 什么 区 别 啊 ? 的 确 如 此 ， 从 爬虫 上 看 ， 除 了 
爬 取 的 规则 有 所 不 同 外 ， 这 个 朴 虫 和 起 点 网 站 的 朴 虫 区 别 不 大 。 这 节 的 重点 不 在 于 爬虫 ， 而 
在 于 获取 页 面 的 过 程 ， 这 个 暂且 先 放 下 ， 继 续 爬 虫 过 程 。 
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在 页 面 的 下 方 单 击 “ 下 一 页 ”， 发 现 URL 变 成 了 http://dianying.2345.com/list/----2016--- 
2.html。 测 试 一 下 http://dianying.2345.com/list/----2016---1.html， 可 以 正常 返回 ，urls 的 变化 规 
律 找到 了 。 再 看 看 总 共有 多 少 页 呢 ? 如 图 6-59 所 示 。 


自杀 小 队 ( X 特 但 队 ) 








图 6-59 总 页 数 


总 页 数 也 找到 了 ， 最 后 只 需要 找到 爬虫 的 过 滤 规 则 就 可 以 了 。 单 击 页 面 空 白 处 ， 在 弹出 
菜单 中 选择 “查看 网 页 源 代码 ”选项 ， 查 看 页 面 源 代码 ， 如 图 6-60 所 示 。 
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OMIEN CENE Ioa 8230 ; </a></spard 

"oc: <em> <a href=“http: //dianying. 2346. con/mingxing/22403/" title=" SIR - 古 德 温 电 影 ，1 + 
_actor_161388”) 金 妮 弗 ， iB </a></emdnbsp: AA - UBI pao 











his. classlane-' pic picHover’ ;“ ormouseout="this. className-' pic’ “> 

6” src=" n 

ht tp://ingwx2. 2345. con/dypcing/ ing/9/56/ s168580. jpe” . 
onerror=" javascript this. stc-' http: //ingwxd. 2345. co dypcing/inages/defailt imgllÜ. jpg :”alt=* 致 青春 原来 你 还 在 这 里 "> 








25 i class"iStyleIcon iStyleFF*></i ‘span class="pRightBot ton” >Cen </en></span? 
58 a class="aPlayBtn” hr ttp:// 册 anying.235. con/detail/168580. html” target="_blank” title" REER 
ajax8"ys_dy_list_pic_168580"><i></i></a> 
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6 c 还 在 这 里 ”target=”_blark”href=*http;//diarying, 2345. con/det ai l/ 16869 
FIT 6888230 ; </a></spard 

ttp: //di anying. 2345. co list/——wuyifar—.htal” title=" 刘亦菲 电影 " 
m>inbsp; (ero <a hzet- httpi//dianying. 2346. coM list/-—liuyifei—-. "t 











刘亦菲 </a 











6-60 页 面 源 代 码 


直接 找 <l 记 标签 就 可 以 了 。 先 找 <ul> 标 签 ， 然 后 再 嵌 套 查找 <li> 标 签 也 行 ， 更 加 精确 。 现 
在 仆 虫 所 有 的 要 素 都 已 经 完备 了 ， 可 以 构造 息 虫 了 。 


6.6.2 ”项目 实施 

在 Eclipse 中 创建 新 项 目 movieBS4， 然 后 在 项 目 中 创建 新 的 PyDev Module 文件 
get2016movie.py， 再 将 上 面 几 节 都 用 到 过 的 mylog.py 复制 到 movieBS4 项 目下 。mylog.py 还 
是 直接 略 过 ， 主 要 是 get2016movie.py。 


【示例 6-11] get2016movie.py 的 内 容 如 下 : 
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#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on 2016698991369 9 


@author: hstking hst_king@hotmail.com 


© 0-006050 NnH2 


from bs4 import BeautifulSoup 


m 
o 


import urllib.request 


m 
= 


import codecs 


m 
N 


from mylog import MyLog as mylog 


m 
[m 


import sys 


14 import re 

15 

16 class MovieItem (object): 

17 movieName = None 

18 movieScore = None 

19 movieStarring = None 

20 

21 class GetMovie (object): 

22 # "" "获取 电影 信息 rn. 

23 def ^ init (self): 

24 self.urlBase - 'http://dianying.2345.com/list/----2016---1.html' 
25 self.log = mylog () 

26 self.pages = self.getPages() 

27 self.urls = [] #url jth 

28 self.items = [] 

29 self.getUrls(self.pages) # 获 取 抓 取 页 面 的 url 

30 self.spider(self.urls) 

au self.pipelines (self.items) 

32 

33 def getPages (self): 

34 "" "获取 总 页 数 '"" 

35 self.1og.info('" 开 始 获取 页 数 ') 

36 htmlContent = self.getResponseContent (self.urlBase) 
37 soup = BeautifulSoup(htmlContent, 'lxml') 

38 tag = soup.find('div', attrs={'class':'v_page'}) 

39 subTags = tag.find all('a', attrs={'target': '_self'}) 
40 self.1og.info(" 获 取 页 数 成 功 ') 

41 return int(subTags[-2].get text()) 

42 

43 def getResponseContent (self, url): 
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44 "" "获取 页 面 返回 的 数据 tt 


45 fakeHeaders= {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) 
Gecko/20100101 Firefox/16.0'} 

46 request = urllib.request.Request (url, headers=fakeHeaders) 

47 ery 

48 response = urllib.request.urlopen (request) 

49 except: 

50 self.log.error('Python 返回 URL:%s 数据 失败 ' url) 

51 return None 

52 else: 

53 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 

54 return response.read().decode('GBK') 

55 

56 def getUrls(self, pages): 

57 urlHead = 'http://dianying.2345.com/list/----2016---' 

58 urlEnd = '.html' 

59 for i in range(1,pages + 1): 

60 url = urlHead + str(i) + urlEnd 

61 self.urls.append (url) 

62 self.10g.info(' 添 加 URL:%s 到 URLS 列表 ' %url) 

63 

64 def spider(self, urls): 

65 for url in urls: 

66 htmlContent = self.getResponseContent (url) 

67 soup = BeautifulSoup(htmlContent, 'lxml') 

68 anchorTag = soup.find('ul', attrs={'class':'v_picTxt 
pic180 240 clearfix'}) 

69 tags = anchorTag.find all('li', attrs={'media': 
re.compile('Nd(5)')]) 

70 for tag in tags: 

TE item = MovieItem() 

T2 item.movieName = tag.find('span', 
attrs={'class':'sTit'}) .get_text() 

73 item.movieScore = tag.find('span', 
attrs={'class':'pRightBottom'}) .em.get_text().replace('4p', '') 

74 item.movieStarring = tag.find('span', 
attrs-('class':'sDes']).get text () .replace(' 主 演 : ', '') 

15 self.items.append (item) 

76 self.1o0g.info(' 获 取 电 影 名 为 : <<%s>> 成 功 ' $(item.movieName)) 

gi 

78 def pipelines(self, items): 

79 fileName = '2016 热门 电影 .txt' 

80 with codecs.open(fileName, 'w', 'utf8') as fp: 
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81 for item in items: 


82 fp.write('%s Nt $s Nt %s \r\n' %(item.movieName, 
item.movieScore, item.movieStarring) ) 

83 self.1o0g.info(' 电 影 名 为 : <<%s>> 已 成 功 存 入 文件 "%s"...' 
%(item.movieName, fileName)) 

84 

85 

86 

87 if name  -- ' main ': 

88 GM = GetMovie() 


单 击 Eclipse 图 标 栏 的 运行 图 标 ， 顺 利 获取 了 所 需 的 数据 ， 如 图 6-61 所 示 。 
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Quick Access fj 
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图 6-61 获取 数据 


这 个 仆 虫 做 到 这 里 就 可 以 结束 了 。 可 这 跟 上 节 扑 起 点 中 文 网 站 的 候 虫 太 相似 了 ， 根 本 没 


必要 重复 做 一 种 爬虫 吧 。 


6.6.3 bs4 RIER 


前 面 曾经 提 到 过 ， 有 的 网 站 会 因为 怜 虫 频 繁 地 疏 取 而 被 反 疏 虫 程序 封锁 。 万 一 哪 天 运气 
不 好 被 封锁 了 怎么 办 ? 最 简单 的 方法 当然 是 换个 P FAIR, WER ELAS ATH, tfi 
单 ， 换 个 headers ILAT (HUER HI User-Agent MIRE, ADA REE 
找 出 来 ) 。 还 记得 每 个 项 目 中 都 有 的 getResponseContent 函数 吗 ? 本 来 只 需要 一 行 就 能 解决 


的 问题 ， 每 次 都 把 它 扩展 成 了 一 个 函数 ， 就 是 在 这 个 时 候 用 的 。 


【示例 6-12】 将 getResponseConteng 函数 修改 一 下 ， 最 终 的 get2016movieWithProxy.py 的 内 


容 如 下 : 
1 #!/usr/bin/evn Python3 
2 #-*= coding: utf-8 -*- 
SEU 
4 Created on 2016908001300 
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5 
6 @author: hstking hst_king@hotmail.com 
Tj 
8 


9 from bs4 import BeautifulSoup 

10 import urllib.request 

11 import codecs 

12 from mylog import MyLog as mylog 
13 import sys 

14 import re 


15 

16 rProxy = ('http': 'http://127.0.0.1:1080"} 
a7 

18 class MovieItem (object): 

19 movieName = None 

20 movieScore = None 

21 movieStarring = None 

22 

23 


24 class GetMovie (object): 


25 + "获取 电影 信息 ''' 
26 def init (self): 


ean) self.urlBase = 'http://dianying.2345.com/list/----2016---1.html' 

28 self.log - mylog() 

29 self.pages - self.getPages() 

30 self.urls = [] #url jh 

317 self.items - [] 

32 self.getUrls(self.pages) # 获 取 抓 取 页 面 的 url 

33 self.spider(self.urls) 

34 self.pipelines (self.items) 

35 

36 def getPages (self): 

37 Urge BUS VU vee 

38 self.log.info(' 开 始 获取 页 数 ') 

39 htmlContent = self.getResponseContent (self.urlBase) 

40 soup = BeautifulSoup(htmlContent, 'lxml') 

41 tag = soup.find('div', attrs-('class':'v page']) 

42 subTags = tag.find all('a', attrs={'target': ' self']) 

43 self.1o0g.info(' 获 取 页 数 成 功 ') 

44 return int (subTags[-2].get_text()) 

45 

46 def getResponseContent (self, url): 

47 "" "获取 页 面 返回 的 数据 t "n" 

48 fakeHeaders= {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) 
Gecko/20100101 Firefox/16.0') 

49 request = urllib.request.Request(url, headers-fakeHeaders) 

50 proxy = urllib.request.ProxyHandler (rProxy) 

51 opener = urllib.request.build opener (proxy) 

52 urllib.request.install opener (opener) 

53 TEY: 

54 response = urllib.request.urlopen (request) 

55 except: 

56 self.log.error('Python 返回 URL:%s 数据 失败 ' sur1) 

E return None 

58 else: 
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59 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 


60 return response.read().decode('GBK') 

61 

62 def getUrls(self, pages): 

63 urlHead = 'http://dianying.2345.com/list/----2016---' 

64 urlEnd - '.html' 

65 for i in range(l,pages + 1): 

66 url = urlHead + str(i) + urlEnd 

67 self.urls.append (url) 

68 self.1o0g.info(' 添 加 URL:%s 到 URLS 列表 ' S$url) 

69 

70 def spider(self, urls): 

71 for url in urls: 

72 htmlContent = self.getResponseContent (url) 

T3 soup = BeautifulSoup(htmlContent, 'lxml') 

74 anchorTag = soup.find('ul', attrs={'class':'v_picTxt 
picl80_240 clearfix']) 

TS tags = anchorTag.find_all('li', attrs={'media': 
re.compile('\d{5}')}) 

76 for tag in tags: 

"1 item = MovieItem() 

78 item.movieName - tag.find('span', 
attrs-('class':'sTit']).get text() 

79 item.movieScore - tag.find('span', 
attrs-('class':'pRightBottom']).em.get text () .replace('4j', '') 

80 item.movieStarring - tag.find('span', 
attrs-('class':'sDes']).get text () .replace(' 主 演 : ', '') 

81 self.items.append (item) 

82 self.1o0g.info(' 获 取 电 影 名 为 <<%s>> 成 功 ' $(item.movieName)) 

83 

84 def pipelines(self, items): 

85 fileName = '2016 热门 电影 .txt"' 

86 with codecs.open(fileName, 'w', 'utf8') as fp: 

87 for item in items: 

88 fp.write('$s Nt $s Nt $s \r\n' $(item.movieName, 
item.movieScore, item.movieStarring)) 

89 self .lo0g.info(' 电 影 名 为 : <<%s>> 已 成 功 存 入 文件 "%s"...' 
$(item.movieName, fileName)) 

90 

91 

92 

93 if name == '_ main "i 

94 GM = GetMovie() 








| 设置 的 Proy 一 定 要 真实 有 效 的 代理 服务 器 ， 而 且 格式 也 不 能 错 ， 必 须要 写成 字典 
| 的 格式 。 








好 了 ， 这 样 再 也 不 怕 被 网 站 封锁 了 。 封 锁 一 次 ， 大 不 了 再 换个 代理 而 已 ， 简 简单 单 解决 
问题 。 
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6.6.4 ”代码 分 析 

本 节 的 代码 与 上 节 的 起 点 网 站 扑 虫 很 相似 ， 这 里 就 不 详细 解析 了 ， 只 分 析 一 下 其 中 的 不 同 之 
处 。 最 大 的 不 同 就 是 getResponseContent 函数 了 。 本 节 在 getResponseContent 函数 中 添加 了 一 个 
浏览 器 的 headers 和 一 个 经 过 验证 、 可 以 使 用 的 proxy， 解 除了 网 站 反 和 疏 虫 程序 的 封锁 。 但 这 种 
反 息 虫 很 被 动 ， 只 有 被 封锁 了 才 会 解除 封锁 ， 而 不 能 主动 避免 反 息 虫 程序 的 封锁 。 





bs4 拒 虫 实战 五 : 获取 音 悦 台 榜 单 


既然 要 反 反 息 虫 ， 那 就 要 反 个 彻底 。 在 Scrapy 里 曾 提 过 反 仆 虫 的 运行 机 制 ， 基 本 上 就 是 
通过 IP. headers 来 锁定 爬 虫 用 户 ， 然 后 进行 封锁 〈 用 验证 码 、 验 证 图 案 的 不 在 讨论 范围 
H) 。 前 面 的 Scrapy 使 用 的 是 随机 跳 转 proxy 和 headers 的 方法 对 付 反 息 虫 。 这 里 也 是 如 此 
〈 反 反 和 疏 虫 的 手段 远 不 止 这 些 ， 比 如 使 用 专门 网 站 怜 虫 、 分 布 式 疏 虫 都 可 以 。 个 人 用 户 没 什 
么 特殊 要 求 ， 做 到 这 一 步 就 差不多 了 ) 。 


6.71 目标 分 析 


本 节 将 使 用 随机 proxy 和 headers EARP RMEH. FFF www.yinyuetai.com 网 站 ， 本 节 
疏 虫 的 目的 是 爬 取 音 悦 台 网 站 公布 的 MV 榜 单 。 单 击 网 站 最 上 方 的 “V 榜 ”， 从 弹出 菜单 中 
选取 “MV 作品 榜 ” 选 项 ， 打 开 了 音乐 V 榜 。 以 内 地 篇 为 例 ， 网 站 排列 除了 内 地 MV 音乐 榜 
的 前 50 名 ， 使 用 了 3 个 网 页 。 这 3 个 页 面 的 网 址 分 别 为 http://vchart.yinyuetai.com/vchart/trends? 
area-ML&page-l. http:;//vchart.yinyuetai.com/vchart/trends?area- ML&page-2. http://vchart.yinyuetai. 
com/vchart/trends?area-ML&page-3, WA] 6-62 所 示 。 








6-62 hams 
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看 看 其 他 几 个 V 榜 中 的 地 区 代码 ， 分 别 是 HT. US. KR 和 JP, Urls 的 规则 很 明了 了 。 
再 来 看 看 疏 虫 的 抓 取 规 则 。 在 网 页 的 任意 空白 处 右 击 ， 选 择 弹 出 菜单 中 的 “查看 网 页 源 代 
码 ” 项 ， 打 开 页 面 源 代码 页 面 ， 如 图 6-63 所 示 。 


C [D view-source:vchart yinyuetai.com/vchart/trends?area- HT 





top_num 
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6-63 ”源码 页 面 


所 有 的 上 榜 MV 都 在 标签 <div class="op_num"> 这 个 标签 下 。 扑 虫 的 抓 取 规则 也 有 了 ， 下 
面 就 看 具体 实施 了 。 


6.7.2 项目 实施 


打开 Eclipse， 创 建新 项 目 YinYueTaiBS4URL， 并 在 项 目 中 创建 一 个 PyDev Modules 文 
fF getTrendsMV.py 作为 主 文件 ， 把 上 节 项 目 中 使 用 过 的 mylog.py 复制 到 当前 目录 下 。 因 为 
要 使 用 不 同 的 proxy 和 headers， 再 创建 一 个 新 的 资源 文件 resource.py。 

EAN, mylog.py 可 以 略 过 ， 这 次 先 看 看 resource.py。 


【示例 6-13] resource.py 的 内 容 如 下 : 


1 #!/usr/bin/env Python3 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 
4 

5 


UserAgents = [ 
6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 
AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 
7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
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SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; 
Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9 "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; 
WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

12 "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14  "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

15 "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

17  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18  "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6", 

19  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

222] 

23 

24 PROXIES - [ 

25 ('http': "58.20.238.103:9797'}, 

26 ('hbtp^: 112327415 la ORO 7 

27 f'http': '121.12.149.18:2226'], 

28 {http s) * 176;31796.1998:3129* F7 

29 ['http': '61.129,129,72:8080* F; 

30 f'http': '115.238.228.9:8080"}, 

31 ['http': "124.232.148.3:3128"}, 

32 {"http’: "124.88.67.19:80"}, 

33 ('http': "60.251.63.159:8080"}, 

34 {'bttp": "118.180.15.152:8102"} 

35 ] 
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这 个 文件 很 简单 ， 仅 包含 了 2 个 列表 。UserAgents 列表 只 需要 在 网 上 找 一 下 ， 可 以 找到 
各 种 各 样 的 headers， 排 除 掉 移 动 端的 也 有 不 少 (有 的 网 站 根据 客户 端的 不 同 ， 返 回 的 数据 也 
不 同 ) ， 尽 量 选择 大 众 化 的 UserAgent。 而 proxies 那 就 更 简单 了 ，Scrapy 项 目 中 不 是 有 个 
getProxy 项 目 吗 ? 执行 条 命令 而 已 ， 来 个 100 条 proxy 都 没 问 题 。 这 里 仅 为 测试 给 数 十 个 
proxy 就 可 以 了 ， 只 需 稍微 注意 一 下 ， 不 要 选择 https 协议 的 就 可 以 了 https 协议 的 proxy 也 
可 以 用 ， 但 有 可 能 会 增加 代码 工作 量 。 既 然 http 协议 的 够 用 了 ， 就 不 用 那么 费劲 了 ) 。 


【示例 6-14】 主 程序 getTrendsMV.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
$-*- coding; utf-8 -*- 


Created on 201669899109 9 


BR 


@author: hstking hst_king@hotmail.com 


© 0 - O0 4 & QM 


from bs4 import BeautifulSoup 


m 
o 


import urllib.request 


m 
m 


import codecs 


m 
N 


import time 


m 
w 


from mylog import MyLog as mylog 


m 
心 


import resource 


m 
a 


import random 


RR 
wo 


class Item(object): 
top num = None # 排 名 
score = None #4]J4} 
mvName = None #MV 名 字 
singer = None # 演 唱 者 
releasTime = None EJ] 


NNNNNNH EH 
Q ^ WN P OC © o0 


class GetMvList (object): 


N 
o 


'''The all data from www.yinyuetai.com 


所 有 数据 都 来 自 www.yinyuetai .com 


N 
x 


N N 
O @ 


def init (self): 


w 
o 


self.urlBase = 'http://vchart.yinyuetai.com/vchart/trends?' 

31 self.areasDic = 
('ML':'Mainland','HT':'Hongkong&Taiwan', 'US':'Americ', 'KR':'Korea', 'JP':'Japan 
vb 

32 self.log - mylog() 
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33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
p 
po 
73 
74 
H5 


self.getUrls() 


def getUrls (self): 
"Urn url wh" 
areas = ['ML','HT','US', 'KR','JP'] 
pages = [str(i) for i in range(1,4)] 
for area in areas: 
urls = [] 
for page in pages: 
urlEnd = 'area-' + area + '&page=' + page 
url = self.urlBase + urlEnd 
urls.append(url) 
self.log.info(u'i$J] URL:%s 到 URLS' $url) 


self.spider(area, urls) 


def getResponseContent (self, url): 
'"' "从 页 面 返回 数据 I1 n1 
fakeHeaders = {'User-Agent':self.getRandomHeaders () } 
request = urllib.request.Request(url, headers=fakeHeaders) 


proxy = urllib.request.ProxyHandler (self.getRandomProxy ()) 
opener = urllib.request.build_opener (proxy) 
urllib.request.install_opener (opener) 


try: 
response = urllib.request.urlopen (request) 
time.sleep (1) 

except: 


self.log.error(u'Python 返回 URL:%s 数据 失败 ' sur1l) 
return '' 

else: 
self.log.info(u'Python 返回 URUL:%s 数据 成 功 ' $url) 
return response.read().decode('utf-8') 


def spider(self,area,urls): 
items - [] 
for url in urls: 
responseContent - self.getResponseContent (url) 
if not responseContent: 
continue 


soup = BeautifulSoup(responseContent, 'lxml') 
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76 tags = soup.find all('li', attrs={'name':'dmvLi'}) 


T? for tag in tags: 

78 item = Item() 

79. item.top_num = tag.find('div', 
attrs-('class':'top num']).get text() 

80 if tag.find('h3', attrs={'class':'desc_score'}): 

81 item.score = tag.find('h3', 
attrs-('class':'desc score']).get text() 

82 else: 

83 item.score = tag.find('h3', 
attrs-('class':'asc score']).get text() 

84 

85 item.mvName = tag.find('img').get('alt') 

86 item.singer - tag.find('a', 


attrs={'class':'special'}) .get_text() 
87 item.releaseTime = tag.find('p', 
attrs-('class':'c9']).get text() 


88 items.append (item) 

89 self.1og.info(u' 添 加 mvName 为 <<%s>> 的 数据 成 功 ' $ (item.mvName)) 

90 self.pipelines (items, area) 

91 

92 

93 def getRandomProxy(self): # 

94 proxy = random.choice (resource. PROXIES) 

95 print (proxy) 

96 return proxy 97 

98 def getRandomHeaders (self): # 随 机 选取 文件 头 

99 return random.choice (resource.UserAgents) 

100 

101 

102 def pipelines(self, items, area): # 处 理 获取 的 数据 

103 fileName = 'mvTopList.txt' 

104 nowTime = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()) 

105 with codecs.open(fileName, 'a', 'utf8') as fp: 

106 fp.write('$s ------- %s\r\n' $(self.areasDic.get(area), 
nowTime)) 

107 for item in items: 

108 fp.write('$s $s Nt $s Nt $s \t $s \r\n' 

109 $(item.top num, item.score, item.releaseTime, 
item.singer, item.mvName)) 

110 self.1og.info(u' 添 加 mvName 为 <<%s>> 的 MV fil$s..." 
%(item.mvName, fileName) ) 

EET fp.write('\r\n'*4) 
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114 if name _ == '_main_': 
115 GML = GetMvList () 


所 有 的 代码 都 完成 了 ， 开 始 运行 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 行 
getTrendsMV.py， 得 到 的 结果 如 图 6-64 所 示 。 


File Edit Navigate Search Project Pydev Run Window Help 























EO Qe IUE. EEUU Quick Access || BS | V (8) 
ource ge E mvToplistixt 53 5 
1Mainland ------~ 2016-08-20 00:50:27 
po 20191.32 — memExeme2015-07-19 ges S+ Rete 
4 V YinvucTeiBss 302 91.31 — memwx«me2015-03-18 EXO Lotto siene 
B) getTrendsMV.log 403 89.81 — EiugXSe*2016-08-12 ZERO-G EE utum m 
B getTrendsMV.py 504 85.21  mrusxew 2016-00-08 SPANI MAMBAS  EEACXTAXNRETATL 
: 605 86.73 — awumrswe2016-07-20 — TFEOYS — sécmE Es wecmnmnt “at 
B mvTopUstbt 106 86.15  memmNGRQ2015-07-17 stake x saemacse ttam 
F) mvTopListtdt - 记事 本 -A " - — m 7 
IHA WEE EO SEV) 帮助 (H) 
Mainland —————-2016-08-20 00:50:27 
01 91.32 jaj: 2016-07-19 FM 的 思念 网 络 剧 < 超 少年 密码 > 插曲 
02 91.31 iR]. 2016-08-18 EXO Lotto Xf EO 
03 89. 81 布 时 间 ，2016-08-12 ZERO-G 好 吗 E 
04 88.21 Rapala]: 2016-08-08 FRKA j m 申 影 < ARRAS eA 
05 86.73 em B. 2016-07-20 TRBOYS 4 ] ANA edo 
06 86.15 [a]; 2016-08-17 RA i 
OT 78.73 B]. 2016-07-21 rd fi 过 你 官方 版 
08 T5.54 iB]. 2016-08-15 no GG 电 oH 
09 67. 04 iB). 2016-07-19 ak 
10 65.92 iB). 2016-08-18 Bs i 
11 64.66 hia]: 2016-08-09 洋 ”微微 一 笑 和 TH M 微 一 笑 很 倾城 ;片尾 曲 
12 64.54 lg}: 2016-08-16 FEDH 
13 63. 85 Jl]: 2016-08-12 (nies A) SRM Hore Kiss 8 
ile) -07-: = 


6-64 i&ÍT getTrendsMV py 


好 了 ， 程 序 执行 结果 没 问题 。 如 果 想 知道 实时 榜 单 ， 单 击 鼠 标 运行 一 下 程序 就 可 以 了 。 


6.7.3 ”代码 分 析 


本 节 的 getTrendsMV.py MEE MARE EG SEC EET UNE d ES RH, BARE 
简单 一 点 。 项 目 中 mylog.py 没什么 好 说 的 ， 就 一 log 助手 而 已 。resource.py 也 无 须 多 说 ， 就 
一 资源 文件 。 如 果 觉 得 手动 挑选 proxy 比较 麻烦 ， 可 以 再 写 一 个 Python 程序 让 其 自动 导入 
proxy 到 resource.py 中 。 唯 一 需要 分 析 的 就 是 getTrendsMV.py 主 程序 了 。 

第 9~15 行 ， 开 头 还 是 导入 所 需 的 模块 ， 这 里 只 是 多 导入 了 一 个 random 模块 ， 用 于 从 列 
表 中 随机 挑选 User-Agent 和 proxy。 

第 17~22 行 创建 一 个 Item 类 ， 这 个 是 仿照 Scrapy 的 Item.py 写 的 ， 也 很 简单 。 

第 25~111 行 是 GetMvList 类 。 这 个 类 将 从 音 悦 台 网 站 中 获取 所 需 的 数据 。 第 29~32 行 给 
出 了 起 始 页 面 和 urls 的 规则 列表 ， 然 后 _init 函数 自动 执行 了 selfgetUrls 函数 。self.getUrls 
再 调用 其 他 函数 ， 完 成 类 设计 的 功能 。 第 36-47 行 是 getUrls 函数 ， 将 利用 起 始 页 url 的 页 面 
规则 ， 将 所 有 需要 扑 取 的 网 页 url FAF urls 列表 中 。 第 51-67 行 是 getResponseContent K 
数 ， 它 将 返回 请 求 url 的 数据 。 每 执行 一 次 getResponseContent 函数 都 将 调用 一 次 
self.getRandomHeaders 和 self.getRandomProxy 函数 。 随 机 选择 一 个 proxy 和 User-Agent 使 
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FA, EPI Se TRCN. 58 61 行 的 作用 是 每 执行 一 次 函数 都 将 暂停 1 秒 ， 避 免 被 
EUR TAA i (这 个 暂停 的 秒 数 可 以 用 random 选 出 一 个 随机 数 ， 这 样 更 加 安全 ) 。 第 
69-90 行 是 spider 函数 ， 它 的 作用 就 是 根据 怜 虫 的 抓 取 规 则 ， 从 返回 的 数据 中 抓 取 所 需 的 数 
据 。 第 93-96 行 是 getRandomProxy 函数 和 getRandomHeaders 函数 ， 虽 然 这 个 函数 的 功能 所 
以 精简 成 一 条 语句 ， 但 还 是 写成 了 函数 ， 这 是 为 了 以 后 有 什么 新 功能 可 以 很 方便 地 添加 进 
去 。 第 102-111 行 是 pipelines 函数 ， 将 所 有 抓 取 到 的 有 效 数据 保存 到 txt 文件 中 。 第 114~115 
行 是 程序 的 _main 程序， 只 有 一 条 命令 ， 用 于 实例 化 GetMvList X. 


6.8 sane 


bs4 MOHEGAN OLA ZE-T WT UA c I i Hh s d fe rh, d eR AAS Ak T — nx 
点 ， 需 要 从 头 到 尾 的 写 代码 ， 这 上 毕竟 是 作文 题 。 填 空 题 虽 然 简单 ， 但 从 头 到 尾 都 身 不 由 己 ， 
得 按照 框架 作者 的 思路 走 。 作 文 题 毕竟 是 自己 写 的 ， 可 以 随心 所 欲 地 修改 调整 。 如 果 是 比较 
小 的 项 目 ， 个 人 建议 还 是 用 bs4， 可 以 有 针对 性 地 根据 自己 的 需要 编写 朴 虫 。 大 项 目 ， 那 还 
是 建议 选 Scrapy 吧 ，Scrapy 能 流行 至 今 可 不 是 浪 得 虚名 的 。 
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第 7 章 
«Mechanizeilsilxl s ES > 


细心 的 读者 应 该 已 经 发 现 了 ， 本 章 之 前 的 爬虫 讲 的 都 是 对 一 般 静 态 网 站 的 数据 过 滤 ， 但 
不 是 所 有 的 网 站 都 可 以 这 么 简单 地 得 到 数据 的 。 比 如 ， 某 些 站 点 需要 登录 后 才能 获取 数据 ， 
这 样 一 来 ， 仅 靠 urllib2 模块 就 有 点 力不从心 了 Curllib2 模块 也 可 以 爬 取 动态 网 站 的 数据 ， 不 
过 过 程 就 很 麻烦 了 ) 。 幸 好 Python 还 有 更 加 强大 的 模块 Mechanize。 

Mechanize 并 不 是 息 虫 ， 它 是 一 个 Python 模块 ， 用 于 模拟 浏览 器 的 模块 。 本 书 讲 的 是 网 
络 怜 虫 ， 直接 爬 数据 就 好 了 ， 为 什么 会 跟 Mechanize 扯 上 关系 呢 ? 前 面 的 章节 都 是 使 用 
urllib2 模块 向 服务 器 发 送 请 求 的 。 如 果 网 页 要 求 登录 ， 输 入 用 户 名 、 密 码 ，urllib2 可 以 应 
付 ， 但 如 果 是 需要 输入 验证 码 屠 就 麻烦 了 。 目 前 有 开源 的 方案 可 以 解决 这 个 问题 ， 只 不 过 需 
要 绕 很 多 弯路 ， 倒 不 如 直接 使 用 模拟 浏览 器 ， 很 方便 地 解决 这 个 问题 。 

Python 的 第 三 方 模块 中 ， 能 模拟 浏览 器 的 模块 也 不 少 。 选 择 Mechanize 的 原因 在 于 它 的 
易 用 性 和 实用 性 比较 平衡 ， 功 能 强大 而 又 简单 易 用 ， 就 选 它 了 。 





安装 Mechanize 模块 


Mechanize 的 官网 是 http://wwwsearch.sourceforge.net/mechanize/。 在 官网 中 给 出 了 3 种 安 
装 方法 : easy_install 安装 、 源 码 安装 和 git 安装 。 实 际 安装 时 根据 平台 特性 选择 最 简单 的 安 
装 方法 即 可 。 








d 因为 Mechanize 只 工作 于 Python 2 平台 下 ， 所 以 本 章 所 使 用 的 Python 版 本 为 Python 2。 
| 尽管 使 用 了 Python 2， 版 本 低 一 点 ， 但 是 作为 一 个 工具 ， 读 者 必须 熟悉 一 下 。 











7.1.1 Windows 下 安装 Mechanize 
在 Windows 中 安装 Python 的 第 三 方 模块 ， 最 简单 的 方法 莫 过 于 pip 了 【前提 条 件 是 已 经 
配置 过 pip 源 了 ， 使 用 初始 源 会 比较 慢 ) 。 打 开 cmd.exe， 执 行 命令 : 


pip install mechanize 


执行 结果 如 图 7-1 所 示 。 


\Users\king>pip install mechanize 
ollecting mechanize 
g_mechanize-@.2.5.tar.gz (383kB) 






















1 143kB 354kB/s eta 0:08:01 
! 153kB 253kB/s eta 8:80:8 
1 163kB 245kB/s eta 8:00: 
1 174kB 243kB/s eta 0:00 
! 184kB 387kB/s eta 8:8 
! 194kB 386kB/s eta 8: 
! 284kB 382kB/s eta 8: 
! 215kB 382kB/s eta 8 
! 225kB 382kB/s eta 
1 235kB 383kB/s eta 
1 245kB 383kB/s et 
1 256kB 664kB^s e 
1 266kB 721kB/s 
1 276kB 736kB/s 
! 286kB 673kB/s 
1 296kB 678kB^ 
! 387kB 691kB 
1 317kB 696k 
1 327kB 701 
! 337kB 78 
! 348kB 78 
1 358kB 7 - 


7-1. Windows 安装 mechanize 


已 经 把 Mechanize 安装 到 Windows 上 ， 可 以 直接 使 用 了 。 


7.1.2 Linux 下 安装 Mechanize 

在 Linux 下 找 安装 软件 最 简单 的 方法 还 是 apt-get， 感 谢 “ 万 能 ”的 Debian 软件 库 ， 即 使 
是 Python 模块 也 可 以 用 apt-get 一 键 安 装 。 不 必 介 意 Mechanize 官网 上 的 安装 建议 ， 怎 么 简单 
怎么 来 就 可 以 了 。 执 行 命令 : 


apt-get install python-mechanize 


执行 结果 如 图 7-2 所 示 。 


EDR 个 坎 件 包 ， 有 0 个 软件 包 未 被 升级 





图 7-2 Linux 安装 Mechanize 
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因为 Mechanize 很 久 没 更 新 的 缘故 ，Linux 下 安装 的 最 稳定 版 本 也 是 最 新 的 版 本 0.2.5. 
不 过 无 须 担 忧 ，Mechanize 已 经 很 强大 了 ， 使 劲 地 往 好 的 方面 想 ， 说 不 定 没 更 新 是 因为 这 个 
模块 已 经 改 无 可 改 了 呢 ! 


7. 2 Mechanize 测试 


百 闻 不 如 一 见 ， 说 得 再 多 也 不 如 直接 测试 一 次 。Mechanize 模块 常用 的 命令 、 方 法 并 不 
多 ， 作 为 普通 使 用 者 ， 无 须 追求 掌控 所 有 细节 ， 只 需要 能 使 用 、 会 使 用 即 可 。 它 只 是 一 个 很 
简单 的 模块 ， 多 试 几 次 就 能 熟练 掌握 。 


7.2.1 Mechanize 百度 


先 试 一 下 最 简单 的 用 法 ， 以 最 常用 的 网 站 百度 为 例 。 使 用 Mechanize 访问 百度 搜索 站 
点 ， 并 使 用 百度 搜索 “Python 网 络 息 虫 ” 得 到 返回 结果 。 如 果 不 使 用 Mechanize， 就 只 能 在 
浏览 器 中 输入 搜索 的 关键 字 ， 再 观察 URL 的 变化 规律 ， 最 后 将 所 有 的 URL 注入 列表 中 ， 一 
个 个 地 返回 结果 疏 取 数据 。 下 面 演示 如 何 使 用 Mechanize 模拟 浏览 器 ， 搜 索 关 键 字 。 

使 用 Putty 连接 到 Linux， 运 行 Python 程序 ， 并 导入 Mechanize 模块 ， 如 图 7-3 所 示 。 





king@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

{GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 


>>> import mechanize 
>>> [] 


图 7-3 Mechanize 环境 
在 Python 环境 下 ， 执 行 命令 : 


br = mechanize.Browser() 

br.set handle equiv (True) 

br.set handle redirect (True) 

br.set handle referer(True) 

br.set handle robots (False) 

br.set handle gzip (False) 

br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), max time-1) 

br.addheaders - [('User-Agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; 
rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 


执行 结果 如 图 7-4 所 示 。 


n 
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Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import mechanize 

>>> br = mechanize.Browser() 

>>> br.set handle equiv (True) 


>>> br.set_handle redirect (True) 
br.set handle referer (True) 
br.set handle robots (False) 
br.set handle gzip(False) 
br.set handle refresh(mechanize. http.HTTIPRefreshProcessor(), max time-i) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv: 
.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 








7-4 Browser 环境 设置 
使 用 Mechanize 浏览 器 打开 百度 搜索 的 主页 ， 并 查看 网 页 中 的 框架 。 执 行 命令 


br.open('https://www.baidu.com'): 





for form in br.forms(): 
print form 


z Sie60 whose wrapped object = «closeable respo 
Inse at Ox7faSb4c91368 whose fp = «socket. fileobject object at 0x7fa5b4cccc50>>> 


>>> [for form in br.forms 
WE print form 


«HiddenControl(f-8) (readonly)» 
«HiddenControl(rsv bp-1) (readonly)» 
«HiddenControl(rsv idx-1) (readonly)> 
«HiddenControl(ch-) (readonly)> 
«HiddenControl(tn-baidu) (readonly)» 
Hiddenconnrol ba (readonly) > 
<oubmitcontro: (cNone>=H =— F) (readonly)> 
«HiddenControl(rn-) (readonly)> 
<HiddenControl(oq=) (readonly)> 
«HiddenControl(rsv pq-e21416f7000ac4be) (readonly)> 
«HiddenControl(rsv t-2358R/NVmDD*/zEba6aqmOPkH9Q20Hj304sMNarrDF8C*yxoLNtKDM4Oz 
ak) (readonly)» 
«HiddenControl(rqlang-cn) (readonly)»» 
>>> [] 





图 7-5 显示 网 页 框架 


从 图 7-5 中 可 以 看 出 ， 只 有 一 个 名 字 为 人 的 框架 (有 时 候 框架 没有 名 字 ， 只 能 用 它们 的 
顺序 来 选择 ， 比 如 第 一 个 框架 是 nr=0， 第 二 个 是 nr=1， 以 此 类 推 ) 。 输 入 文字 的 位 置 为 文本 
输入 框 <TextControl (wd=)>。 选 择 框架 ， 在 框架 内 输入 数据 后 提交 数据 。 以 搜索 “Python 网 
ER” Ail, durar: 


br.select form(name-'f') 
br.form['wd'] = "Python [ege 
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br.submit () 


执行 结果 如 图 7-6 所 示 。 


>>> 

>>> br.select form(name-'f') 

>>> br.form['wd'] = 'Python Weh: 
>>> br.submit() 
«response seek wrapper at Ox7faSbác91dd0 whose wrapped object = «closeable respo 
nse a Ox7faSbácba830 whose fp = «socket. fileobject object at 0x7fa5b4cd3dd0>>>! 
>>> 

















图 7-6 搜索 关键 字 
返回 搜索 的 结果 ， 执 行 命令 : 


print br.response().read() 


执行 结果 如 图 7-7 所 示 。 





div class-"c-row c-gap-top"> 


<div class-"c-span4 opr-recommends-merge-item opr-recommends-merge-item-ver 
tical" data-click="{'rsv_re_ename':'python 计 算 与 编程 实践 ', 'rsv_re_uri':'c50e36f1 
£0084ec6bd908f5ea30d1be7'}"> 

<div class-"opr-recommen| ] 
\ds-merge-p"> 
<a target="_blank" href="/s?rsv_idx=1éwd=pythontE8tAEtAl1 tE7tAEt97tE4 
&BS$8ESE7$BCT9645E7TABSB8BAESSAESSESESSB7iBS&usm-l&ie-utf-B&rsv cq-python-tE7$BDi9 
18E7&BB$9CtE7$88*ACSEB8$99$AB&rsv dl-0 right recommends merge 21102&amp;cq-python 
$20$E7$BD$91*E7t*BBS9CSE7$88*ACSE8t991AB&amp;srcid-28310&amp;rt-$ESSAESA1$E7SAES9 
7&E6$9C$BASE7*B1t*BBSE41B9$A6tE7tB1t8D&amp;recid-21102&amp;euri-c50e36f1f0084ec6b 
|[d908f5ea30dibe7"»«img  data-img-"https://ss2.baidu.com/60NYsjipOQIZ8tyhng/it/u-4 
063802933,465813&fm-58" class-"c-img c-img4 opr-recommends-merge-img"/></a> 
</div> 
<div class-"c-gap-top-small"»«a target="_blank" title="python 计 算 与 编程 

实践 " href="/3?z3V_idx=1&wd=pYythonsE8SAE4SA1SE7TSAES974E44B848ESE74BCS964SE74RA8S8BS 
E5SRAES9ESE84B74SB54Usm=1561e=utf-8kr3V_Ccq=pYLhon+SE74BD4914E74BBS9CSE7$884ACSE8S99 
&AB&rsv dl-0 right recommends merge 21102&amp;cq-pythont$20$E7$BD$915E7$BB$9CtE7* 
SSSACSESt99tABsamp; srcid=28310éamp; rt=SEStAEtA1tE7SAES97 EGS OCEBASE7$B1SBBtE4tB9 
&A6SE7$B1t8D&amp;recid-21102&amp;euri-c50e36f1f0084ec6bd908f5ea30dlbe7"»pythonit 
算 与 编程 实践 </a></div> 


</div> - 
图 7-7 返回 搜索 结果 
查看 返回 页 面 的 所 有 链接 ， 执 行 命令 : 


for link in br.links(): 
print("$s : $s" $(link.url, link.text)) 


执行 结果 如 图 7-8 所 示 。 
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Inttp://tieba.baidu. com/f?kw=Python$20%CD3FesC23E73C5#CO#B33E65fr=wwwt : 贴吧 ^ 
http://zhidao.baidu.com/q?ct-17&pn-0&tn-ikaslist&rn-10&word-Python$20$CD$F8$C2sE 
7scsscosB3sE6sfr=wwwt : 知道 
Ihttp://music.baidu.com/search?fr-ps&ie-utf-8&key-Pythont20$CDAFe4C23E74C53COSB3* 
E6 : 音乐 
Ihttp://image.baidu.com/search/index?tn-baiduimage&ps-1&ct-201326592&1m--1&cl-2&n 
c-1&ie-utf-8&word-Pythont20&CD&F8AC23E7ACSACOSBSREG : 
http://v.baidu.com/v?ct-301989888&rn-20&pn-0&db-0&s-25&ie-utf-S&word-Pythont208C 
DtF84C24E74C54C04B34E6 : 视频 
Ihttp://map.baidu.com/m?word-Pythont$20$CD$F83C23E74C53COSB3&EG&fr-psO1000 : 地 图 
Inttp: //wenku.baidu.com/search ?word=Pythont208CDtF8$C2$E7$CS$COSB3$E6é1m=0é0d=06i 
e=utf-8 : 文库 

//www.baidu.com/more/ : 更 多 > 

javascript:: : 展开 
/sarsv_idx=15swd=sE8#87SRRSE5SBT4B14E548R4RABSE648948B4E5486#994ET4BD#S914ET4BB#9CS 
7s88sRCsE85994MBsusm=1sie=utf-8srsv_cq=pYychon+sE7SBD#S913E7#BB#9CsE7#68SRCSE8S99| 
saBsrsv_dl=0_right_recommends merge 21102&cq-python$20$E7$8D$91$1E7$BB$9CSE7$8853A 
CSE8$991AB&srcid-28310&rt-3ESSAESAISETSAES97SEGS9CSBASE7$B1TBBSE43B93A6TE73B1t96D 





/s?rsv : ELTTITTT ETT TLE ET TEL TTL ELI TIE EE EE EY 
FE7388SRCSE8399SABkusm=15ie=ucf-85zsV_cq=pYLhon+SE7SBDS91SE74SBBS9CSE7488SRCSE8399 


saBsrsv_dl=0_right_recammends merge_211025cq=pYEhons203E74BD#914E74BB49CSET4884R 
csEas99tnBksrcid=283105rr=sE8SRESR13ETSRES973E639CSBRSETSB133BSE43B98R6SETSB138D 
&recid-21102&euri-b44b507f21c84b2991b738b574444dib : 自己 动手 写 网 络 怜 虫 - 


图 7-8 返回 链接 
使 用 Mechanize 浏览 器 打开 指定 链接 ， 执 行 命令 : 
newLink = br.click link(text-' B GF 5 Ae t ) 


br.open (newLink) 


执行 结果 如 图 7-9 所 示 。 


>>> 
>>> newLink = br.click link(text-' BCHFSMSee') 


>>> br.open (newLink) 


Kresponse seek wrapper at Ox7fa5b4d08200 whose wrapped object = <closeable_respo | 
nse at Ox7faSb46Sedd0 whose fp = «socket. fileobject object at Ox7faSb45eS050>>>/_| 
>>> [] ~ 








图 7-9 打开 链接 


如 果 觉 得 打开 的 链接 不 对 ， 还 可 以 使 用 br.back0 命 令 返 回 上 一 个 页 面 。Mechanize 的 基 
本 操作 就 是 这 些 了 。 


7.2.2 Mechanize 光 猫 F460 


Mechanize 可 以 模拟 登录 ， 只 是 现在 几乎 所 有 的 站 点 登录 都 需要 输入 验证 码 。 虽 然 也 有 
开源 的 解决 方案 ， 可 以 解决 验证 码 什么 的 ， 但 是 后 面 有 更 简单 的 解决 方案 ， 没 必要 在 这 里 与 
验证 码 死 太 。 笔 者 一 向 认为 ， 最 简单 的 方法 就 是 最 合适 的 方法 ， 宁 愿 多 敲 几 行 代码 ， 也 要 选 
择 最 简单 的 。 

如 今 无 须 验 证 码 就 可 以 登录 的 站 点 不 好 找 。 好 在 身边 有 一 个 现成 的 Web 服务 器 符合 要 
求 ，F460 光 猫 的 配置 页 面 ， 而 且 正 好 是 动态 回复 数据 的 ， 简 直 是 为 Mechanize 量 身 定做 的 。 

在 浏览 器 中 打开 光 猫 F460 的 配置 页 面 http:/192.168.1.1， 执 行 结果 如 图 7-10 所 示 。 
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FA 7-10 F460 光 猫 登录 


填写 用 户 名 和 密码 后 单 击 “ 登 录 ” 按 钮 (用 户 名 是 admin， 密 码 要 么 直接 问 电信 ， 要 么 
在 百度 里 搜索 一 下 “hack f460 2638" ) ， 进 入 配置 界面 ， 结 果 如 图 7-11 所 示 。 


[À 192.168.1.1 


XEM | 中 国电 信 
设备 型 号 | F460 
设 香奈 训 号 | 4C09B4-453004C09845B4692 


v3.0 


V2.30.10P3T2hbH 


图 7-11 获取 光 猫 F460 信息 
先 用 Python 模拟 测试 一 次 。 打 开 Putty， 登 录 到 Linux， 进 入 Python 环境 。 执 行 命令 : 


import mechanize 








cj = mechanize.CookieJar() 
br = mechanize.Browser() 
br.set handle equiv (True) 
br.set handle gzip (False) 
br.set handle redirect (True) 
br.set handle referer (True) 
br.set handle robots (False) 
br.set handle refresh(mechanize. http.HTTPRefreshProcessor(), max time-1) 
br.addheaders - [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 
br.set cookiejar (cj) 
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br.open('http://192.168.1.1') 


执行 结果 如 图 7-12 所 示 。 





[Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
|pezmitted by applicable law. 
Last login: Thu Aug 25 15:41:52 2016 from 192.168.2.99 
king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
[>>> import mechanize 
cj = mechanize.CookieJar() 
br = mechanize.Browser() 
br.set handle equiv (True) 
br.set handle gzip(False) 
br.set handle redirect (True) 
br.set handle referer (True) 
br.set handle robots (False) 
br.set handle refresh(mechanize. http.HTIPRefreshProcessor(), max time-1) 
>>> br.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe 
|bKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 
>>> br.set cookiejar (cj) 
>>> br.open('http://192.168.1.1') 
Kresponse seek wrapper at Ox7flObeffc908 whose wrapped object = «closeable respo| 
inse i Ox7flObfO6dbd8 whose fp = «socket. fileobject object at Ox7f10bf032c50»»»| j 
>>> 





图 7-12 模拟 浏览 器 打开 光 猫 F460 主页 
查看 网 页 上 的 框架 ， 执 行 命令 : 


for form in br.forms(): 


Print form 


执行 结果 如 图 7-13 所 示 。 


>>> 
>>> for form in br.forms(): 
E print form 


fLogin POST http://192.168.1.1 application/k-www-form-urlencoded 
<TextControl (Username=) > 


<PasswordControl (Password=) > 
«SubmitControl(«None»-zm 4) (readonly) > 
«SubmitControl(«None»-EÓ vES) (readonly)> 
«HiddenControl(Frm Logintoken-) (readonly)»» 
>>> [] 





743 ”查看 主页 框架 


从 图 7-13 可 以 得 知 ， 主 页 框架 的 名 字 是 fLogin， 框 架 内 文本 框 变量 名 是 Username, 
码 框 的 变量 名 是 Password。 进 入 文本 框 ， 给 变量 赋值 后 ， 发 送 数据 。 执 行 命令 : 


br.select form(name-'fLogin') 





br.form['Username'] = 'admin' 
br.form['Password'] = '***x*** 
br.submit() 

print br.response().read().decode('gb2312') 





这 里 输入 光 猫 F460 的 密码 
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其 中 ， 在 选择 框架 时 ， 可 以 用 框架 名 字 ， 也 可 以 用 框架 的 序列 号 ， 序 列 号 从 0 开始 。 例 
如 ， 在 这 里 选择 框架 时 就 可 以 用 brselect_form(nr=0)。 如 果 需 要 选择 第 二 个 框架 ， 则 是 


br.select_form(nr=1)。 执 行 结果 如 图 7-14 所 示 。 


|var dHeight = iframe.contentWindow.document.documentElement.scrollHeight; 
|var height = Math.max(bHeight, dHeight); 
iframe.height = height: 

)catch (ex) {} 

} 

lwindow. setInterval ("reinitIframe ()", 200); 
</script> 

<body align="center"> 

<div align="center" style="margin:0 auto;" > 
<table width="808px" border="0"> 

<tr><td> 


<iframe width="608px" height="145px" [name-"topFrame" scrolling="no 

" frameborder="0" id=! C: 

<iframe width="808px" |name-"mainFrame" id="mainFrame" scrolli 
eTght-400"»«/iframe» 


图 7-14 获取 框架 URL 





这 里 显示 了 框架 的 链接 。 根 据 链接 的 地 址 template.gch， 直 接 使 用 Mechanize 创建 的 浏览 


器 打开 这 个 链接 就 可 以 了 。 执 行 命令 : 


br.open(‘http://192.168.1.1/template.gch’) 
print br.response().read().decode('gb2312') 


执行 结果 如 图 7-15 所 示 。 


kdiv class="space_0"> 

table class="infor" id-"TABLE DEV" width="410" border-"0" cellpadding="0" cell 
|spacing-"1" bgcolor-"£979797"» 

<tr class-"blue 1"> 

ktd class="tdleft"> 运 营 商 </td> 

<td id="Frm CarrierName" name="Frm CarrierName" class="tdright"> 中 国电 信 </td> 
</tr> 

ktr class="white_1"> 

ktd class="tdleft"> 设 备 型 号 </td> 

<td id="Frm ModelName" name="Frm ModelName" class="tdright">F460</td> 

</tr> 

<tr class="blue_1"> 

<ta class="cdlefc"> 设 备 标识 号 </cd> 

td id="Frm_SerialNumber" name-"Frm SerialNumber" class-"tdright"»4C0984-453004C 


«cd class="tdleft"> 硬 件 版 本 号 </td> 
[<td ide"Frm HardwareVer" name="Frm HardwareVer" class="tdright">V3.0</td> 


1e 
tdleft"> 坎 件 版 本 号 </td> 


<td id-"Frm SoftwareVer" name-"Frm SoftwareVer" class="tdright">V2.30.10P3T2hbH< ~ 


745 ”获取 数据 
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好 了 ， 创 建 浏 览 器 获取 数据 的 过 程 已 经 运行 了 一 遍 ， 下 面 可 以 使 用 bs4 配合 Mechanize 
来 抓 取 光 猫 F460 的 数据 了 。 


Mechanize 实 站 一 : 获取 Modem 信息 


使 用 urllib2 也 可 以 比较 方便 地 处 理 那 些 无 须 验 证 码 的 登录 页 面 ， 不 过 使 用 Mechanize & 
录 更 加 方便 。 当 然 是 怎么 方便 怎么 做 。 下 面 以 抓 取 光 猫 F460 的 设置 页 面 为 例 ， 使 用 
Mechanize 配合 bs4 抓 取 光 猫 F460 的 数据 。 





7.3.1 获取 F460 数据 


启动 Eclipse， 新 建 PyDev 项 目 MechanizeAndBs4。 在 新 项 目 中 创建 一 个 PyDev Module 
文件 getF460Info.py。 


【示例 7-1) getFA60Info.py 的 内 容 如 下 : 


#!/usr/bin/evn python 
dfocoxcoding vtf=8 -*- 


Created on 2016 年 8 月 25 日 


@author: hstking hst_king@hotmail.com 
ver 


© 0-10 0&5 wWNHH 


import mechanize 


10 from bs4 import BeautifulSoup 

11 from mylog import MyLog as mylog 

12 

13 

14 class F460Info (object): 

15 " "获取 光 猫 £460 的 信息 ''' 

16 def ^ init (self): 

17 self.url = 'http://192.168.1.1/' 

18 self.log - mylog() 

Hio self.username = 'admin' 

20 self.password = '******' # 这 里 输入 光 猫 的 密码 
21 self.spider() 

22 

23 

24 def spider(self): 

25 responseContent = self.getResponseContent (self.url) 
26 if not responseContent: 

E self.log.error('the response is null') 
28 exit() 
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29 
30 
Sm 


soup = BeautifulSoup(responseContent, 'lxml') 
modemInfo - () 
modemInfo['CarrierName'] = soup.find('td', 


attrs-('id':'Frm CarrierName']).get text().strip() 


32 


modemInfo['modelName'] = soup.find('td', 


attrs-('id':'Frm ModelName']).get text().strip() 


33 


modemInfo['SerialNumber'] = soup.find('td', 


attrs-('id':'Frm SerialNumber']).get text().strip() 


34 


modemInfo['HardwareVer'] = soup.find('td', 


attrs-('id':'Frm HardwareVer']).get text().strip() 


35 


modemInfo['SoftwareVer'] = soup.find('td', 


attrs-('id':'Frm SoftwareVer']).get text().strip() 


36 


modemInfo['BootVer'] = soup.find('td', 


attrs-('id':'Frm BootVer']).get text().strip() 


37 


modemInfo['VerDate'] = soup.find('td', 


attrs-('id':'Frm VerDate']).get text().strip() 


38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 


self.pipeline (modemInfo) 


def getResponseContent (self, url): 

self.log.info(u'begin create mechanize browser') 
br - mechanize.Browser() 

br.set handle equiv (True) 

br.set handle gzip(False) 

br.set handle redirect (True) 

br.set handle referer (True) 

br.set handle robots (False) 


br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), 


max time-1) 


51 


52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 


self.log.info(u'open url on mechanize browser') 
try: 
br.open (url) 
except: 
self.log.error(u'open $s failed' $url) 
return '' 
br.select form(nr-0) 
br.form['Username'] = self.username 


br.form['Password'] = self.password 
br.submit () 


newUrl = url + 'template.gch' 
try: 
br.open (newUrl) 


br.addheaders - [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 
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67 except: 

68 self.log.error(u'open $s failed' %newUrl) 
69 return '' 

70 else: 

71 return br.response().read() 

72 

23 

74 def pipeline(self, info): 

75 fileName = u'f460ModemInfo.txt'.encode('gbk') 
76 with open(fileName, 'w') as fp: 

TF for key in info.keys(): 

78 print ('%s \t %s \n' %(key.encode('utf8'), 


info.get (key) .encode ('utf8'))) 


79 fp.write('%s Nt $s \n' %(key.encode('utf8'), 
info.get (key) .encode('utf8'))) 

80 

81 

82 if _ name a 

83 fi = F460Info() 


然后 将 mylog.py 复制 到 MechanizeAndBs4 项 目下 ， 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 
行 结 果 如 图 7-16 所 示 。 






File Edit Source Refactoring Navigate 
CLIC re = Oe Gries oi Te 


li PyDev Package... 号 = O 


Search Project Pydev Run Window Help 
voor 










LIE eB 


ij 


Quick Access fil 


E) getF460Info £2 








Bt: 
4 (b MechanizeAndBs4 





D) 460Modeminfo.txt 4 

国 getF460Info.log 5 

回 getFAGOInfo.py E EON E 
E myloa.py 


@ D:\Program Files python. 
a (b YinYueTaiBSA 
[3] getTrendsMV.log 






import mechanize 
from bs4 import BeautifulSoup 
from mylog import MyLog as mylog 















E) getTrendsMV.py 

D mvTopUst.bxt 

E) mylog.py 

E) resource.py 

@ D:\Program Files\python 
1D baiduBSA 


class FAGOInfo(object): 


def init (self): 
Self.url = 'http://192.168.1.1 
self.log = mylog() 
self.username = dein 
self.password = 





外 helloPython self.spider() 
EJ moiveBS4 

© qidianBs4 ‘ ii $ 
B test 








司 fa60Modeminfo t«t -记事 本 
XE RRE BO) SEY 


F460 
HardwareVer v3.0 
i 4C09B4—453004C09B45B4692 


© Console © 


«terminated» E:\save\sync\c 
2016-08-26 20:58:22,042 


BJ winningNumBS4 





H) 





2916-00-26 20:38:22,049 SoftwareVar V2. 30. 10P3TZhbH 


CarrierName 国电 信 


V1.0. 0T4 
2012-07-06 11:59:11 






modelName F460 








7-16 i&{F getF460Info.py 
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EREZIE, CAGES AAR. 


7.3.2 ”代码 分 析 


NBA ALA TTY bs4 ERRAIAK, HÆ Mechanize 模块 代替 了 urllib2 
模块 。 在 不 需要 输入 验证 码 的 情况 下 ，Mechanize 还 是 很 简单 方便 的 。 下 面 来 看 看 示例 7-1 这 
个 程序 中 的 代码 作用 。 

第 9~11 行 是 导入 模块 ， 很 标准 的 Python 程序 流程 。 

第 16-21 行 是 F460Info 类 的 解析 函数 ， 定 义 了 几 个 变量 。 在 C 语言 中 定义 这 种 类 似 的 变 
量 ， 一 般 都 是 在 文件 头 使 用 define。Python 中 没有 define， 放 在 这 里 正好 合适 ， 修 改 也 很 方 
便 。 

第 24~39 行 是 spider 类 函数 。 这 个 函数 的 作用 是 通过 BeautifulSoup 从 字符 串 中 过 滤 抓 取 
所 需 的 数据 。 在 使 用 soup 获取 数据 后 ， 都 使 用 strip 函数 去 除了 数据 左右 的 空格 、 回 车 等 不 
可 见 字 符 。 

第 42~71 行 是 getResponseContent 类 函数 。 作 用 是 通过 Mechanize 模块 来 获取 目标 页 面 
的 返回 数据 。 第 44 行 创建 了 一 个 浏览 器 对 象 ， 第 45-51 行 都 是 对 浏览 器 对 象 的 设置 。 这 些 
设置 并 不 是 可 有 可 无 的 ， 在 打开 某 些 网 页 时 会 因为 这 些 设 置 的 不 同 而 得 到 不 同 的 结果 。 如 果 
没有 什么 特殊 要 求 ， 这 样 设置 就 可 以 了 。 

在 编写 程序 之 前 ， 己 经 知道 了 最 终 的 目标 网 页 是 http://192.168.1.1/template.gch， 可 在 第 
53-62 行 还 是 用 浏览 器 对 象 打开 了 http://192.168.1.1。 这 是 因为 直接 打开 目标 页 面 是 得 不 到 任 
何 数 据 的 ， 只 有 先 登 录 http://192.168.1.1， 得 到 合法 的 Cookie， 然 后 利用 这 个 Cookie 才能 打 
开 目 标 页 面 。 

第 74~79 行 的 pipeline 类 函数 的 作用 是 处 理 最 终 的 结果 ， 将 结果 存 入 文件 。 这 里 直接 使 
用 open 打开 文件 ， 数 据 中 有 中 文字 符 ， 存 入 数据 时 必须 使 用 encode 将 字符 串 转换 成 合法 的 
数据 后 存 入 。 








^ Mechanize 实战 二 : 获取 音 悦 台 公告 

上 节 讲 的 是 无 验证 码 登录 疏 取 数据 ， 本 节 接 着 演示 需要 验证 码 的 爬虫 。 有 些 网 站 或 论坛 
为 了 防止 暴力 破解 ， 在 登录 框 设置 了 一 个 验证 码 。 有 坚固 的 盾 就 有 锐利 的 予 ， 目 前 针对 验证 
码 的 解决 方案 可 谓 是 千奇百怪 。 有 些 方案 的 确 有 效 ， 但 不 具备 普遍 性 。 考 虑 到 疏 虫 所 需要 的 
只 是 数据 ， 完 全 可 以 绕 过 验证 码 ， 直 接 使 用 Cookie 登录 就 可 以 了 。 


7.4.1 登录 原理 
以 音 悦 台 网 站 为 例 ， 先 来 看 看 音乐 台 的 登录 界面 ， 如 图 7-17 所 示 。 
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图 7-17 音 悦 台 登录 界面 


这 个 网 站 的 登录 就 相当 麻烦 ， 需 要 拖 动 滑 块 到 合适 的 位 置 补 全 图 片 。 如 果 只 是 验证 码 还 
有 些 开 源 方案 可 供 选择 。 这 种 验证 方式 ， 目 前 还 没有 发 现 可 以 模拟 登录 的 Python 程序 。 因 此 
干脆 选择 适应 性 最 广 的 方法 ， 直 接 利用 Cookie 获取 目标 页 面 数据 。 

这 种 方法 的 好 处 在 于 不 管 有 没有 验证 码 ， 也 不 管 验证 码 有 多 么 复杂 ， 它 都 是 有 效 的 。 它 
利用 的 只 是 Cookie， 跟 用 户 名 、 密 码 、 验 证 码 都 没有 关系 。 缺 点 就 是 操作 比较 复杂 ， 还 有 就 
是 Cookie 的 生存 期 可 能 不 长 ， 过 一 段 时 间 就 得 重新 操作 一 遍 。 


7.4.2 ”获取 Cookie 的 方法 


获取 Cookie 的 方法 很 多 。 不 管 使 用 哪 种 方法 ， 首 先 都 得 登录 后 再 操作 。 打 开 登 录 页 面 ， 
输入 用 户 名 密码 ， 将 滑 块 拖 动 到 正确 的 位 置 后 登录 网 站 ， 如 图 7-18 所 示 。 





图 7-18 登录 网 站 
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登录 网 站 后 进入 目标 页 面 ， 如 图 7-19 所 示 。 


E: ty 











图 7-19 目标 页 面 


从 目标 页 面 可 以 获取 个 人 的 信件 、 站 内 公告 等 。 现 在 只 需要 从 目标 界面 获取 Cookie 就 可 


以 了 ， 其 他 的 数据 留 给 bs4 处 理 。 
获取 Cookie 的 方法 很 多 ， 以 下 只 列 出 比较 典型 的 几 种 。 


1 . JavaScript 获取 Cookie 


所 有 的 浏览 器 默认 情况 下 都 是 支持 JavaScript 的 〈 如 果 默 认 不 支持 ， 请 自行 修改 选 
项 ) 。 因 此 获取 Cookie 最 常见 到 的 方法 就 是 在 浏览 器 中 打开 目标 页 面 ， 然 后 在 地 址 栏 输入 


JavaScript 命令 : 


javascript:document.write (document .cookie) 
执行 结果 如 图 7-20 所 示 。 


€ QC (^5iyinyuetai.com/news/bulletin 


yinyuetai uid-adw ocQyliz7; tid-ab dxycTlLco; route-lfd: 
JSESSIONID-aaa ikHvv; autoPlayer-0; pushState-true; _ga=GAl. 2. 1470831739; 


searchSID-c52c5 396f9T8b89b; 
u inf-40878590802F us ^  mail.com02normal usersü2httpW3AN2FWZFi mg2. yytcdn. coma 


token-282f1bld3be65a24hKCEBl60wL2. 1a8ef. 0; token3=1da96C . ZEB1. 1GDEB1. AP. 1a8ef. 
CNZZDATA1330456-cnzz ei. 2 F%252F www. yinyuetai. com’252F%26nt i| 


p2-9cdef 86db 





7-20 JavaScript 获取 Cookie 


这 种 方法 的 好 处 在 于 无 须 借助 任何 工具 就 可 以 获取 Cookie 信息 ， 缺 点 是 获取 的 Cookie 
信息 有 时 会 不 太 完整 ， 缺 少 关 键 的 几 项 。 有 的 网 站 用 这 种 方法 获取 的 Cookie 可 以 登录 ， 有 的 
不 行 ， 不 具备 普遍 性 ， 所 以 这 种 方法 不 可 取 。 


2. 从 浏览 器 记录 中 获取 Cookie 


浏览 器 在 登录 站 点 后 会 将 Cookie 信息 保存 到 文件 中 〈 这 里 以 Chrome 浏览 器 为 例 ) iX 
个 文件 的 位 置 在 C:\Users\WindowsLoginName\AppData\Local\Google\Chrome\User Data\Default 
目录 ， 文 件 名 为 Cookies， 如 图 7-21 所 示 。 


aE) SEV 工具 (T) 帮助 (H) 
OAF ”共享 pHs 








Cookies Cookies-journal Current Session 
F 文件 文件 | 文件 
2.90 MB 035 317 KB 
Current Tabs DownloadMetadata Extension Cookie! 
icm x xi $t 
[orive _ 209 kB — 75525 — 7.00 KB 
Extension Cookies-journal Favicons Favicons-journal 
文件 文件 文件 
—| ors 6.28 MB 0+ 





FA 7-21 浏览 器 Cookies 文件 位 置 


这 个 Cookies 文件 实际 上 是 一 个 Sqlite3 的 数据 库 。Chrome 将 浏览 器 上 的 所 有 Cookie 都 
保存 到 这 个 数据 库 中 。 将 这 个 Cookies 文件 复制 一 个 备份 ， 名 为 Cookies.db (尽量 避免 直接 
对 系统 文件 操作 ) 。 在 该 目录 下 按 Shift 键 并 单 击 鼠 标 ， 在 弹出 的 菜单 中 选取 “在 此 处 打开 命 
令 窗口 ”， 如 图 7-22 所 示 。 


b « SiH (C) » 用 户 » king » AppData » Local » Google » Chrome » User Data » Defi 
E) av) IAM 帮助 (H) 
包含 到 库 中 Y 共享 Bue 


Cookies -— 
9v) 
排序 方式 (0) 
Current Tabs SEIS) 
文件 FIRE) 

209 — 
Sete BERA.. 
Extension Cookies-journal - 

文件 车 贴 (P) 

oss 车 贴 快 搜 方 式 (S) 
Google Profile Picture.png ME 

PNG Be 

12.5 KB 


History Provider Cache 


104 MB 
Last Tabs 


194 KB 











7-02 ”从 目录 打开 cmd.exe 
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在 cmd.exe 中 打开 Python 环境 ， 连 接 到 Sqlite 3 数据 库 ， 并 读 出 与 yinyuetai.com 相关 的 
Cookie。 执 行 命令 : 


import sqlite3 
conn = sqlite3.connect ('Cookies.db') 
for row in conn.execute('select * from Cookies where host key like 
"Syinyuetai.com$"'): 
print row 








E 新 版 Chrome 支持 的 Sqlite 3 版 本 必须 是 3.8 以 上 的 ,而 默认 安装 的 Python 2.7 自 带 的 版 本 
是 3.6.21。 所 以 需要 到 sqlite3.org 上 下 载 Windows 版 本 的 新 的 sqlite3.dll 替换 。 如 果 不 愿 
意 替 换 ， 那 就 把 Cookie.db 文件 复制 上 传 到 Linux 处 理 。 目 前 Linux 自 带 的 Python 2.7 中 
自 带 的 版 本 是 3.8.7.1。 














执行 结果 如 图 7-23 所 示 。 


201, u'vchart.yinyuetai.com', u'CNZZ 77 56", u'', u'/*, 
“000, 0, 0, 1311 77354200, 1, 1, 1, «read-write buffer ptr Ox7f0fbe 
, Size 310 at Ox7f0fbe4b0498», 0) 
. )33. :J0, u'vchart.yinyuetai.com', u'CNZ 7521', u'', u'/', i 
..000, 0, 0, 1311 ' ^'^ 154200, 1, 1, 1, «read-write buffer ptr 0x7f0fbe 
. Size 326 at Ox7fOfbe5b6960», 0) 
(1311 27 1, u'www.yinyuetai.com', u'CNZZ. 7.456', u'', u'/', à. ^0 
4912 )0, 0, O, 1311 74100, 1, 1, 1, «read-write buffer ptr 0x7f0fbe5dc 
c88, size 278 at Ox7f0fbeSdcc48>, 0) 
85 20, u'so.yinyuetai.com', u'CNZ 30456", u'', u'/', 13. 4 
200, 0, 0, 1311! 7^^':773100, 1, 1, 1, «read-write buffer ptr Ox7f0fbe4b04 
d8, size 310 at Ox7f0fbe4b0498>, 0) 
(1311 88 .20, u'.yinyuetai.com', u'searchSID', u'', u'/', 0, 0, 0, 1: 
3100, 0, 0, 1, «read-write buffer ptr Ox7f0fbeScSéd8, size 262 at Ox7f0fbe 


.87 0, u'www.yinyuetai.com', u'route', u'', u'/', 0, 0, 0, 13 - 
100, 0, 0, 1, «read-write buffer ptr Ox7f0fbe5c5448, size 262 at 0x7f0fbe5 


3021 20, u'v.yinyuetai.com', u'CNZZ- J0456', u'', u'/', 13 49 
“700, 0, 0, 13116 1100, 1, 1, 1, <read-write buffer ptr Bees 


8, size 310 at Ox7f0fbe4b0498>, 0) 





>>> B E 


图 723 从 文件 中 获取 Cookie 


已 经 将 所 有 相关 的 Cookie 列 出 来 了 。 如 果 要 把 这 些 数据 转换 成 可 使 用 Cookie， 还 得 继 
续 将 其 中 的 encrypted_value 字段 解码 。 这 个 是 可 以 做 到 的 ， 得 安装 别 的 Python 模块 ， 相 当 不 
方便 。 使 用 这 种 方法 获取 Cookie， 好 处 是 所 有 的 Cookie 内 容 都 一 网 打 尽 ， 连 用 户 名 密码 都 
可 以 用 明文 解读 出 来 : 坏处 则 是 要 把 这 些 数 据 转换 成 Mechanize 可 用 的 Cookie 比较 麻烦 ， 还 
需要 安装 其 他 的 第 三 方 模块 ， 有 些 鸡肋 。 


3 . 利用 工具 获取 Cookie 


最 后 的 方法 就 是 利用 网 络 工具 ， 在 浏览 器 向 服务 器 发 送 数据 时 截取 这 些 数 据 ， 这 些 数据 
不 仅仅 包括 Cookie， 还 有 一 些 其 他 的 信息 ， 而 且 这 些 信息 Mechanize 还 都 用 得 上 ， 简 直 是 完 
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美 。 这 种 方法 与 Mechanize 相当 合拍 ， 都 是 往 服务 器 发 送 数据 ， 区 别 仅 在 于 一 个 是 浏览 器 发 
送 ， 一 个 是 Mechanize 模块 发 送 而 已 。 

截取 浏览 器 和 服务 器 之 间 的 网 络 工 具有 很 多 ， 比 如 Fiddler、Wireshark 和 Burp Suite， 也 
有 浏览 器 自 带 的 ， 比 如 Firefox 的 Httpfox 和 Chrome 开发 工具 。 建 议 直接 使 用 Chrome 的 开发 
TR, WR Chrome 开发 工具 截取 的 数据 不 能 使 用 〈 这 种 可 能 性 极 低 ) 或 者 没 使 用 Chrome 浏 
览 器 ， 那 就 使 用 Fiddler 或 Burp Suite。 


7.4.8 获取 Cookie 


1 . Chrome 开发 工具 获取 Cookie 


Chrome 浏览 器 自 带 的 开发 功能 相当 强大 ， 这 里 只 使 用 它 的 抓 包 功能 。 在 浏览 器 中 打开 有 目 
标 网 站 并 登录 ， 进 入 目标 页 面 ， 按 F12 键 ， 打 开 Chrome 开发 工具 ， 如 图 7-24 所 示 。 








随时 随地 A. 
为 偶像 137) em- P085 


Com/apps/mobile 


8h/ PERERA PRAMS Star TVERE 





Regex E Hide data URLs (ff) xHR JS CSS Img Media Font Doc WS Manifest Other 


t F5 to record the reload. 








FA 7-24 Chrome 开发 工具 
在 Chrome 浏览 器 下 方 的 开发 工具 中 单 击 Network 标签 页 。 按 FS 键 ， 刷 新 页 面 ， 会 在 浏 
览 器 中 得 到 很 多 数据 ， 然 后 在 Filter 框 中 输入 目标 页 面 的 关键 词 bulletin， 找 到 发 送 请 求 的 
Request， 如 图 7-25 所 示 。 
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€. Q D iyinyuetaicom/ne 








27/62 eques 138 289 08 vansered | Fn 28 min | DONContentosded Bim Lond 105 
7-25 ”找到 Request 
单 击 这 个 Name W bulletin 的 Request， 在 打开 的 界面 中 单 击 Headers 标签 ， 得 到 这 个 


Reqeust 的 Headers 〈 这 里 也 有 Cookies 标签 ， 但 它 的 表现 形式 是 表格 ， 另 外 所 需 的 数据 不 只 
是 Cookie， 还 有 User-Agent， 所 以 这 里 选择 Headers 标签 ) ， 如 图 7-26 所 示 。 


iyinyuetaicomynew 








7-26 headers 


将 这 个 Request Headers 里 的 所 有 数据 都 复制 到 一 个 文本 文件 headersRaw.txt 中 备用 。 
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2 . Burp Suite 获取 Cookie 


如 果 不 喜欢 Chrome 浏览 器 的 开发 工具 ， 或 者 没有 使 用 Chrome 浏览 器 ， 也 可 以 使 用 工具 
来 获取 Cookie。 这 里 选择 的 是 Burp Suite 工具 。BrupSuite 工具 简单 方便 ， 跨 平台 运行 ， 功 能 
强大 。 如 果 要 完全 说 明 Burp Suite 的 其 他 功能 ， 恐 怕 得 一 本 厚 书 才 行 。 这 里 只 使 用 BrupSuite 
最 简单 的 抓 包 功 能 。 打 开 Burp Suite 工具 ， 选 择 Proxy 标签 下 的 Intercept 标签 ， 将 Intercept is 
on 按钮 激活 。 这 样 设置 将 截取 浏览 器 的 Request， 但 不 向 服务 器 发 送 ， 如 图 7-27 所 示 。 


和 Burp Suite | 
Burp Intruder Repeater Window Help. 








[Target Spider | Scanner | mvder | Repeater | Sequencer | Decoder | comparer | Extender [opions | Aer || 
| intercept f HTTP history | WebSockets history | Options | 




















Forward Drop Intercept is on Action 





图 7-27 Burp Suite 


Burp Suite 监控 的 端口 是 本 机 的 8080 端口 ， 所 以 必须 将 浏览 器 的 代理 端口 设置 为 
127.0.0.1:8080。 这 个 设置 根据 选择 的 浏览 器 不 同 而 选择 不 同 的 方法 设置 。 如 果 使 用 的 是 
Chrome， 建 议 使 用 SwitchySharp 插件 。 如 果 使 用 的 是 FireFox， 建 议 使 用 FoxyProxy。 至 于 其 他 
的 浏览 器 ， 就 干脆 将 系统 代理 设置 成 127.0.0.1， 然 后 将 所 有 浏览 器 设置 成 使 用 系统 代理 。 

打开 浏览 器 ， 设 置 好 代理 ， 然 后 刷新 登录 后 的 目标 网 页 。Burp Suite 将 得 到 数据 ， 
如 图 7-28 所 示 。 


|| Burp Suite Professional v1.27 - 








Burp Intruder Repeater Window Help 


[Target Sige] Spider | Scanner | intruder | Repeater | Sequencer | Decoder | Comparer | Extender | Options | Al 


























aue [ HTTP history | WebSockets history | Options | 








[EA] Request to http yinyuetai com:80 [220.170.49 109] 

















fA 7-28 Burp Suite 获取 headers 
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主要 是 获取 Cookie 和 User-Agent 的 数据 ， 然 后 将 这 个 Raw 标签 内 的 所 有 数据 复制 到 文 
本 文件 headersRaw.txt 中 备用 。 

这 两 种 获取 headersRaw.txt 文件 的 方法 任 选 一 种 即 可 ， 然 后 为 其 写 一 个 程序 ， 将 所 需 的 
数据 按照 所 需 的 格式 导出 来 。 打 开 Eclipse， 创 建 PyDev Project 项 目 getBulletin ， 将 
headersRaw.txt 文件 复制 到 getBulletin 项 目下 ， 并 在 项 目下 创建 一 个 名 为 getHeadersFromFile 
的 pyDev Modules。 


【示例 7-2] getHeadersFromFile.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python 
2 ¢=*= coding: utf-8 -*- 


3 are 
4 Created on 201649 H 1H 

5 

6 @author: hstking hst_king@hotmail.com 

FEED 

8 

9 

10 def getHeaders (fileName) : 

11 headers = [] 

12 headerList = ['User-Agent', 'Cookie'] 

13 with open(fileName, 'r') as fp: 

14 for line in fp.readlines(): 

15 name, value = line.split(':', 1) 

16 if name in headerList: 

17 headers.append((name.strip(), value.strip())) 
18 return headers 

19 

20 if name == ' main ': 

21 headers = getHeaders ('headersRaw.txt') 


22 print headers 


测试 getHeadersFromFile.py, "ii Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 图 7-29 所 示 。 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
Play al ieee: YOY Brio Ts Quick Access | E | & (8) 4. 
I$ PyDevPackage.. 3: = © 回 getTrendsMV B getHeaders 23 二 


= 
4 WH getBulletin 30 
P) getHeadersFromFile py 4 
B headersRaw.txt. 5 
@ pprogran Files\pythorg, 5 Bauthors bak 
CUTEM 


oix 29 def. getileade: (fileName) 
105 def gel rs (FileName): 

Bj helloPython ers c i] 
 MechanizeAndBs4 headerlist = [ "User-Agent", ‘Cookie 
G moiveBS4 with open(filename, ‘r°) as fp:| 

m for line in fp.readlines(): 
WB qidianss4 name, value = line.split(':', 1) 
D test if name in headerlist: 
入 winningNumBSA headers. append((name.strip(), value.strip())) 

return headers 





if mae == ~ 


headers = getHeaders( "eode 
print headers 


© Console £2 





图 7-29 运行 getHeadersFromFile.py 


已 经 将 Cookie 和 User-Agent 过 滤 出 来 并 按照 格式 排列 好 了 ， 最 后 所 得 到 的 headers 是 一 
个 包含 了 2 个 元 组 的 列表 。 


7.4.4 使 用 Cookie 登录 获取 数据 

获取 音 悦 台 网 站 个 人 站 内 公告 的 充分 条 件 已 经 具备 了 。 下 面 开始 使 用 Mechanize 和 bs4 
来 获取 个 人 公告 数据 。 

打开 Eclipse， 进 入 刚 建 立 的 getBulletin 项 目 中 ， 将 以 前 项 目 中 使 用 的 mylog.py 复制 到 
getBulletin 项 目下 ， 并 在 项 目 中 创建 一 个 新 的 PyDev Module， 文 件 名 为 getYinyuetaiBulletin.py。 

【示例 7-3] getYinyuetaiBulletin.py 的 内 容 如 下 : 


#!/usr/bin/evn python 
#-*- coding: utf-8 -*- 


Created on 2016 年 9 月 1 日 


@author: hstking hst_king@hotmail.com 


(0 0-00 QN PP 


import mechanize 
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10 
11 
12 
13 
14 
15 
16 
als 
18 
19 
20 
21 
22 
23 
24 
25 
26 
2T 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 


from bs4 import BeautifulSoup 


from mylog import MyLog as mylog 


from getHeadersFromFile import getHeaders 


import codecs 


class Item(object): 
title - None 
content - None 


class GetBulletin (object): 
def init (self): 
self.url = 'http://i.yinyuetai.com/news/bulletin' 


self.log - mylog() 


self.headersFile = 'headersRaw.txt' 


self.outFile = 'bulletin.txt' 


self.spider() 


def getResponseContent (self, url): 


self.log.info('begin use mechanize module get response!) 


br = mechanize.Browser() 


br.set handle equiv (True) 


br.set handle redirect (True) 


br.set handle referer (True) 
br.set handle robots (False) 


br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), 


max time-1) 


39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 


headers 


= getHeaders (self.headersFile) 


br.addheaders = headers 


br.open (url) 


return 


br. response () .read() 


def spider(self): 


self.log.info('beging run spider module') 


items 


[] 


responseContent = self.getResponseContent (self.url) 


soup 
tags = 


BeautifulSoup(responseContent, 'lxml') 
soup.find all('div', attrs-('class':'item info']) 


for tag in tags: 
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52 item - Item() 


53 item.title = tag.find('p', 
attrs={'class":"title"}).get_text().strip() 

54 item.content = tag.find('p', 
attrs-('class':'content']).get text().strip() 

55 items.append (item) 

56 self.pipelines (items) 

57 

58 

59 def pipelines (self, items): 

60 self.log.info('begin run pipeline function') 

61 with codecs.open(self.outFile, 'w', 'utf8') as fp: 

62 for item in items: 

63 fp.write (item.title + '\r\n') 

64 self.log.info (item.title) 

65 fp.write(item.content + '\r\n') 

66 self.log.info(item.content) 

67 fp.write('\r\n'*8) 

68 

69 

TO AE name == ' main ': 


m GB = GetBulletin() 








File Edt Source Refactoring Navgete Search Project Pydev Run Window -Help 
[GL Tk aC Ra, hee VICUS Quick access] e | a) [88] 


IE PyDev Package = 0 [B ea a 
+ self. log.info( 'b ) 
- 5 item = [] 
4 t getBulletin a responseContent = celf.getRezponceContent (celf.url) 
E) buletinit 4 soup = Beautifulsoup(responsetontent, 
B) gettleadersfromfile.py tage = coup.find al1(‘div:', attree{ item info*y) 
D geinysetaiBullein.log Hara dm 
B) getVinyuetaiBulletin.py item.title = tag.find "p", attrs«( ititeqgett 
B) headersawh item.content = tog.find('5", attrse{ : De 
: tens. append(ites) 
日 mlogpy self. pipelines (itens) 





eu Em VR Of ei Uta AERA 


Xx IOS 用 户 ?. ET i 2.0 版 本 | DEAT aS ah 需要 重新 下 载 。 


4 0 版 本 以 下 吕 以 直接 奥 新 。 喝 : 


http://w. yinyuetai. com/apps/mob: 


8) Mg ERES A E dum... (2016-08-04 10:36:17) 

13H!H StarI¥ B. 
San 8 月 ?日 neal Fee coe BRERA TAMER ESHA 
频 , a Breath TREE ERG set 起 来 :http://feature. yinyuetai. com/b: 
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已 经 成 功 地 获取 了 音 悦 台 的 个 人 公告 ， 如 图 7-31 所 示 。 





€ C D iyinyuetai.com/news/bulletin 











图 7-31 目标 网 页 上 的 公告 
与 网 站 上 的 个 人 公告 比较 一 下 ， 完 全 一 样 ， 扑 虫 没有 问题 。Mechanize 使 用 Cookie 登 
3X, PRY Cookie 的 生存 期 间 题 ， 算 是 一 个 非常 好 的 办 法 ， 要 比 urllib2 模块 模拟 浏览 器 方便 
得 多 。 





本 章 小 结 


Mechanize 不 是 疏 虫 ， 虽 不 是 得 到 爬虫 结果 的 充 要 条 件 ， 但 在 某 些 时 候 比 疏 虫 更 加 重 
要 。 毕 竞 候 虫 过 滤 的 来 源 数据 要 靠 Mechanize 来 获取 。 大 多 数 时 候 的 确 可 以 使 用 别 的 模块 来 
替代 Mechanize， 这 样 一 来 过 程 就 未 免 有 些 复杂 了 。 虽 然 息 虫 程序 追 求 的 只 是 结果 ， 过 程 是 
否 繁杂 对 结果 没有 影响 ， 但 能 用 简单 的 模块 解决 问题 就 没 必要 用 复杂 的 方法 。 


305 


第 8 章 


< Selenium TAXI SS > 


Python [ex 295 JMG cb P dg JE Ji [5] AS Je HS HE ors BE SE OA He DA HG FE PE 9, T] de AE Ee ORE 
JavaScript 获取 数据 的 站 点 。Python 对 JavaScript 的 支持 不 太 好 。 想 用 Python 获取 网 站 中 
JavaScript 返回 的 数据 ， 唯 一 的 方法 就 是 模拟 浏览 器 了 。 这 个 模拟 浏览 器 跟 Mechanize 模块 稍 
有 不 同 ， 第 7 章 介绍 的 Mechanize 模块 并 不 支持 JavaScript， 所 以 这 里 需要 一 款 可 以 模拟 真实 
浏览 器 的 模块 一 一 Selenium 模块 。 





安装 Selenium 模块 


Selenium 是 一 套 完整 的 Web 应 用 程序 测试 系统 ， 包 含 了 测试 的 录制 (Selenium IDE) ~ 
编写 及 运行 (Selenium Remote Control) 和 测试 的 并 行 处 理 (Selenium Grid) 。Selenium 的 核 
心 Selenium Core 基于 JsUnit， 完 全 由 JavaScript 编写 ， 因 此 可 运行 于 任何 支持 JavaScript 的 
浏览 器 上 


8.1.1 Windows 下 安装 Selenium 模块 
在 Windows 中 安装 Selenium 模块 还 是 采用 最 简单 的 pip 安装 ， 执 行 命令 : 


python -m pip install -U selenium 


执行 结果 如 图 8-1 所 示 。 





icrosoft Windows [他 本 6.1.76011 B 


反 权 所 有 «c? 2009 Microsoft Corporation。 保 留 所 有 权利 。 = 





: Windows \systen32>python -n pip install -U selenium 
ollecting selenium 

Using cached https://pypi-doubanio.com/packages/2c/10/Sed4ece1869781c4420de798 
BFcb2F1bf6522a5d6F6bdBb634ce057f 4984/se leniun-3.8.0-py2. py3-none-any. whl 
Installing collected packages: selenium 
Successfully installed seleniun-3.8.8 





| Windows \system32> 





图 8-1 Windows 安装 Selenium 


Windows 中 安装 Selenium 完毕 ， 可 以 直接 使 用 了 。 


8.1.2 Linux 下 安装 Selenium 模块 
在 Linux 中 安装 软件 尽 可 能 地 使 用 apt-get， 这 样 便于 管理 软件 。 执 行 命令 : 
apt-get install Python3-selenium 
执行 结果 如 图 8-2 所 示 。 


® kingOdebian8: ~ 
king&debian8:-$ su 
密码 : 








chromedriver firefoxdriver 
下 列 【 新 】 软 件 包 将 被 安装 : 
python3-selenium 


升级 了 0 个 软件 包 ， 新 安装 了 1 TK A, BWM 0 个 软件 包 ， 有 139 个 软件 包 未 被 升 


级 。 

需要 下 载 67.3 kB 的 软件 包 。 

解压 缩 后 会 消耗 掉 490 xs 的 额外 空间 

R: 1 http://mirrors.163.com/debian/ jessie-backports/main python3-selenium al 
1 2,48.0+dfsgl-2~bpo8+1 [67.3 kB] 

FR 67.3 kB, HERE OW (101 kB/s) 

正在 选中 未 选择 的 软件 包 python3-selenium. 

(正在 读 取 数据 库 ... 系统 当前 共 安装 有 157346 个 文件 和 目录 。) 
正 准 备 解 包 .../python3-selenium_2.48.0+dfsgl-2~bpo8+1_all.deb ... 
正在 解 包 python3-selenium (2.48.0+dfsgl-2~bpo8+1) 

正在 设置 python3-selenium (2.48.0+dfsgl-2~bpo8+1) 

root@debian8: /home/king# 

root @debian8: /home/king? 





图 8-2 Linux 安装 Selenium 


Linux 中 安装 Selenium 完毕 。 








& 在 Windows 中 安装 Selenium 必须 使 用 管理 员 权限 。 | 











3.2 浏览 器 选择 


在 编写 Python WAER, EHE) Selenium 的 Webdriver。Selenium.Webdrive 不 可 能 
支持 所 有 的 浏览 器 ， 也 没 必要 支持 所 有 的 浏览 器 。 实 际 上 目前 流行 的 浏览 器 核心 也 就 是 那么 
几 种 。 先 看 看 Selenium.Webdriver 支持 哪 几 种 浏览 器 。 


8.2.1 Webdriver 支持 列表 


查看 模块 的 功能 ， 最 简单 也 是 最 方便 的 方法 就 是 直接 使 用 help 命令 。 打 开 cmd.exe 工 
具 ， 执 行 命令 : 
python 


from selenium import webdriver 


help (webdriver) 
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执行 结果 如 图 8-3 所 示 。 


— 


BR: 命令 


# under the License. 


PACKAGE CONTENTS 
android (package? 
blackberry (package 
chrome (package? 
common «package? 
edge <package> 
firefox (package? 
ie package? 

opera (package? 
phantomjs “package? 
remote (package? 
safari (package? 
support (package? 
webkitgtk package? 

















8-3 Webdriver 支持 列表 


在 以 上 列表 中 ，android 和 blackberry 是 移动 端的 浏览 器 ， 可 以 先 去 掉 。 移 动 端的 浏览 器 
虽然 也 支持 JavaScript， 但 与 PC 端的 浏览 器 根本 是 两 回 事 。common 和 support 也 可 以 先 去 
掉 ， 剩 下 的 只 有 Chrome. Edge. Firefox. IE. Opera. Phantomjs 和 Safari 了 。Chrome、 
Dege, Firefox. IE. Opera. Safari 比较 常见 ， 而 PhantomJS 则 有 些 名 不 见 经 传 。 

PhantomJS 是 一 个 基于 WebKit 的 服务 器 端 JavaScript API。 它 全 面 支持 Web 而 不 需 浏览 
器 支持 ， 其 快速 、 原 生 支 持 各 种 Web 标准 : DOM AIE, CSS 选择 器 、JSON Canvas 和 
SVG。 PhantomJS 可 以 用 于 页 面 自动 化 、 网 络 监测 、 网 页 截屏 以 及 无 界面 测试 等 。 

无 界面 意味 着 开销 小 ， 也 意味 着 速度 快 。 网 上 有 牛人 测试 过 ， 使 用 Selenium 调用 上 面 的 
浏览 器 ， 速 度 前 三 分 别 是 PhantomJS、Chrome 和 IE (remote 调用 HtmlUnit 速度 才 是 最 快 
ff), fH HtmlUnit 对 JavaScript 的 支持 不 太 好 ) ， 开 销 小 、 速 度 快 对 JavaScript 的 支持 也 不 
错 。 唯 一 的 缺点 是 没有 GUI， 但 在 服务 器 下 运行 程序 时 ， 这 又 成 了 优点 。 所 以 无 须 犹 殉 ， 就 
选 PhantomJS |. 3ES: E, ET JavaScript 才能 返回 数据 的 网 站 时 ， 没 有 比 Selenium 和 
PhantomJS 更 适合 的 组 合 了 。 


8.2.2 Windows 下 安装 PhantomJS 


PhantomJS 的 官网 主页 是 http://phantomjs.org/。 在 浏览 器 中 打开 主页 ， 单 击 Download 
V2.1 按钮 进入 下 载 页 面 ， 如 图 8-4 所 示 。 
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SOURCE CODE DOCUMENTATION 


Full web stack 
No browser required 


Get started 
Community: — (£] Read the release notes Bp join the mailing ist 


Phantoms is an optimal solution 


HEADLESS WEBSITE TESTING SCREEN CAPTURE PAGE AUTOMATION 
stsw Programmatically capture ws Access and manipulate webpages Monit 


8-4 PhantomJS 官网 主页 
进入 下 载 页 面 后 ， 选 择 Windows 版 本 的 PhantomJS 下 载 软件 ， 如 图 8-5 所 示 。 





















€ e phantomjs.org/download.ht 






SOURCE CODE DOCUMENTA 


Please take a moment to improve this document with anything that could be usefull 


Documentation Downla 


Get Started 


9 Download Note There is no need to ask when a binary package f| 
5 Build packagers are fully aware of every release and they gi 
o Releases available 
D Release Names 
» REPL Windows 

Learn Download phantomjs-2.1.1-windows.zip (17.4 MB) a 







The executable p xe is ready to use 





D Screen Capture 
D Network Monitoring Note: For this static build, the binary is self-containe}t 


D Page Automation 
D Inter Process Communicat 
D nd Li 


Get Help 






T) Troubleshootin, Download phantomjs-2.1.1-macosx.zip (16.4 MB) and 





8-5 FA Windows 版 本 PhantomJS 


因为 未 知 的 原因 ， 直 接 用 浏览 器 下 载 PhantomJS 速度 极 慢 。 有 时 根本 就 没 反 应 ， 建 议 使 
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用 迅雷 下 载 PhantomJS。 迅 雷 上 若 有 用 户 曾 下 载 过 PhantomJS， 后 面 的 迅雷 用 户 再 次 下 载 速 
度 就 很 快 了 。 

下 载 完成 后 ， 解 压 压缩 包 ， 然 后 将 exe 文件 加 入 系统 路 径 中 就 可 以 了 。 重 新 设置 系统 路 
径 是 很 麻烦 的 事情 。 还 记得 安装 Python 的 过 程 吗 ? 安装 程序 已 自动 将 Python 的 路 径 加 入 到 
系统 路 径 中 了 ， 反 正 PhantomJS 也 是 配合 Python 使 用 的 ， 直 接 将 解压 后 的 PhtomJS.exe 复制 
到 Python 的 目录 中 就 可 以 了 ， 如 图 8-6 所 示 。 


= 











ss (co + Program Fles ，pyhana6 | -| 


papam -一 一 








phantomjs.exe 
PhantomJS is a headless Web. 
PhantomJS 


python3.dll 





oftware Foundation 








pythonw.exe 
e Python 
Python Softw -~ 


Software Foundation 





修改 日 期 : 2016/1/25 6:21 创建 日 期: 2017/5/11 23:46 
大 小 : 17.7 MB 





图 8-6 Windows 设置 PhantomJS 环境 


在 Python 环境 中 测试 一 下 ， 如 图 8-7 所 示 。 








8-7 Windows 中 测试 PhantomJS 环境 


Windows 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


8.2.3 Linux 下 安装 PhantomJS 
还 是 打开 PhantomJS 官网 的 下 载 页 面 ， 选 择 合适 的 版 本 ， 使 用 迅雷 下 载 ， 如 图 8-8 所 示 。 
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#8 Selenium 模拟 浏览 器 


D phantomjs.org/download.html 


other libraries. 





Examples 

Best Practices Linux 64-bit 
Tips and Tricks 

Supported Web Standards 


Related Projects 


Contribute 


Contributing 
Source Code 
Test Suite 


o 
5 
5 
D Release Preparation Download phantomjs-2.1.1-linux-i686.tar.bz2 (23.0 MB) and extract 
D 


Crash Reporting 
Bug Reporting Note: For this static build, the binary is self-contained. There is no r 
WebKit. or any other libraries. It however still relies on Fontconfig (t 
libfontcenfig, depending on the distribution). The system must 
GLIBC 27. 


i King debi 
Usinc username "king". 
wuthenticating h public key "imported-openssh-key" 








Tte prograns included with the Debian GNU/Linux system are fı 
the exact distribution terms for each program are described 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the ej 
permitted by applicable li 
126 2016 from 192.168.2.99 


1 SMP Debian 3.16.7-ckt25-2«debi 





图 8-8 “FR Linux 版 本 PhantomJS 


将 下 载 好 的 压缩 文件 上 传 到 Linux 后 解压 缩 ， 然 后 将 可 执行 文件 复制 到 系统 路 径 
/usr/local/bin XRF (Linux 的 系统 路 径 有 很 多 ， 随 意 选 一 个 即 可 ) 。 打 开 Putty， 连 接 到 
Linux 上 ， 执 行 命令 : 


tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/ 
ln -s phantomjs-2.1.1-linux-x86 64/bin/phantomjs /usr/local/bin/phantomjs 
ls -1 /usr/local/bin/ 


执行 结果 如 图 8-9 所 示 。 





























oP kingGdebian&: ~ - n x 
Iphantomjs-2.1.1-1inux-x86 64/examples/features.js ^ 
[phantomjs-2.1.1-1inux-x86 64/examples/netsniff.js 

Iphantomjs-2.1.1-1inux-x86 64/examples/walk through frames.js 
phantomjs-2.1.1-1inux-x86 64/examples/printheaderfooter.js 

Iphantomj. 1.1-linux-x86 64/examples/responsive-screenshot.js 
|phantomjs-2.1.1-1inux-x86 64/examples/countdown.js 

Iphantomjs-2.1.1-1inux-x86 64/examples/detectsniff.js 

Iphantomjs-2.1.1-1inux-x86 64/examples/simpleserver.js 

[phantomjs-2.1.1-1inux-x86 64/examples/postjson.js 

Iphantomjs-2.1.1-1inux-x86 64/examples/run-jasmine2.js 

|phantomjs-2.1.1-1inux-x86 64/examples/run-jasmine.js 

phantom: 1.1-1inux-x86 64/README.md 

|phantomjs-2.1.1-1inux-x86 64/LICENSE.BSD 

Iphantomjs-2.1.1-1inux-x86 64/bin/ 

Iphantomjs-2.1.1-1inux-x86 64/bin/phantomjs 

Iphantomjs-2.1.1-1inux-x86 64/third-party.txt 

phantomjs-2.1.1-1inux-x86 64/ChangeLog 


root&debian8:/home/king$ In -s /usr/local/phantomjs-2.1.1-1inux-x86 64/bin/phant 
oms /usr/local/bin/phantomjs 

root@debian8: /home/king# exit 

exit 

king@debian8:~$ 1s -1 /usr/local/bin/phantomjs 

rwxrwxrwx 1 root staff 53 1 有 27 18:52 /usr/local/bin/phantomjs -> /usr/local/ 
|phantomjs-2.1.1-linux-x86_64/bin/phantomjs 

kingédebians:-5 目 * 


8-9 Linux 中 设置 PhantomJS 环境 
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在 Python 环境 中 测试 一 下 ， 执 行 命令 : 
Python3 

from selenium import webdriver 
derver = webdriver.PhantomJS () 


执行 结果 如 图 8-10 所 示 。 






or "license" for more information. 





8-10 Linux 中 测试 PhantomJS 环境 
Linux 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


Selenium&PhantomJS 抓 取 数据 


Selenium 和 PhantomJS 配合 ， 可 以 模拟 浏览 器 获取 包括 JavaScript 的 数据 。 问 题 是 本 文 
是 讲 息 虫 的 ， 现 在 不 单 要 获取 网 站 数据 ， 还 需要 过 滤 出 “有 效 数据 ” 才 行 。 这 里 就 不 用 麻烦 
bs4 了 《实际 上 非 要 用 bs4 也 不 是 不 可 以 ) ，Selenium 本 身 就 带 有 一 套 自己 的 定位 过 滤 函 
数 。 它 可 以 很 方便 地 从 网 站 返回 的 数据 中 过 滤 出 所 需 的 “有 效 数据 ”。 


8.3.1 获取 百度 搜索 结果 


还 是 那 句 老话 ， 想 知道 Python 模块 最 详细 的 用 法 ， 直 接 用 help 函数 就 可 以 了 。 鉴 于 
Selenium.Webdriver 的 help 文件 太 大 ， 分 屏 显 示 又 不 那么 方便 ， 干 脆 将 帮助 文件 保存 到 文件 
中 慢 慢 查看 。 执 行 命令 : 


python 

from selenium import webdriver 
import sys 

browser = webdriver.PhantomdsS () 
out = sys.stdout 

sys.stdout = open(‘browserHelp.txt’, ‘w’) 
help (browser) 
sys.stdout.close() 

sys.stdout = out 

browser.quit () 

exit () 








m 一 定 要 加 上 browser.quit(), %1] cmd.exe 在 执行 exit 时 会 无 法 退出 。 | 
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执行 结果 如 图 8-11 所 示 。 


:\sers\king>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1908 64 bit CAMD64)] 
on win32 
Type "help", "copyright", "credits" or "license" for more information. 
>> fron selenium inport webdriver 
>>> import sys 
>> browser = wehdriver.PhantomJS(> 
>> out = sys.stdout 
>> sys.stdout = open('brouserlelp.txt', *w’> 
>> help¢browser> 
>> sys.stdout.closeO) 
>> sys.stdout = out 

[>>> browser.quit > 





SHA) RAKE) WNO EEV ADH) 
Help on WebDriver in module selenium. webdriver. phantomjs. webdriver object: 





class WebDriver (selenium. webdriver. remote. webdriver. WebDriver) 
Wrapper to communicate with PhantomJS through Ghostdriver. 


You will need to follow all the directions here: 
https: //github. com/detro/ghostdriver 


Method resolution order: 
WebDriver 
selenium. webdriver. remote. webdriver. WebDriver 
builtins. object 





Methods defined here: 


图 8-11 获取 help 文件 


想 获取 “有 效 信 息 ”， 第 一 步 当然 是 网 站 获取 返回 数据 ， 第 二 步 就 是 定位 “有 效 数 据 ” 
的 位 置 ， 第 三 步 就 是 从 定位 中 获取 “有 效 数 据 ”。 

以 百度 搜索 为 例 ， 使 用 百度 搜索 “Python Selenium”， 并 保存 第 一 页 搜索 结果 的 标题 和 
链接 。 从 服务 器 返回 数据 ， 由 PhantomJS 负责 ， 获 取 返 回 的 数据 用 Selenium.Webdriver 自 带 
的 方法 page_source， 例 如 : 

from selenium import webdriver 

browser = webdriver.PhantomJS () 


browser.get (URL) 
html = browser.page_source 


有 两 种 方法 可 以 得 到 搜索 结果 页 面 。 第 一 种 ， 百 度 主 页 还 是 使 用 get 方式 上 传 request。 
这 里 可 以 先 找 一 个 浏览 器 ， 打 开 百 度 后 搜索 关键 词 。 再 把 返回 来 的 搜索 结果 的 URL 保存 下 来 
用 Selenium&PhantomJS 打开 ， 再 获取 返回 的 数据 。 第 二 种 ， 直 接 用 Selenium&PhantomJS 1T 
开 百 度 的 主页 ， 然 后 模拟 搜索 关键 词 。 直 接 从 Selenium&PhantomJS 中 返回 数据 。 这 里 使 用 
第 二 种 方法 ， 可 以 很 清楚 地 看 到 Selenium&PhantomJS 获取 数据 的 过 程 。 

第 一 步 获取 搜索 结果 。 打 开 cmd.exe， 准 备 好 环境 。 执 行 命令 : 


python 
from selenium import webdriver 


browser = webdriver.PhantomdS () 
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browser.get (‘https://www.baidu.com’ ) 
browser.implicitly wait (10) 


执行 结果 如 图 8-12 所 示 。 





ee UR 6-1-7601). 保留 所 有 权利 。 E 


:Wsers\king>python 
Python 3.6.4 (u3.6.4:d48eceb, Dec 19 2017, 06:54:48) [MSC v.1908 64 bit CAMD64)] 
on win32 

ype "help", "copyright", "credits" or "license" for more information. 
[>>> from selenium import webdriver 

>>> browser = webdriver.PhantonJS( 

>>> brouser.get C https ://www.baidu.con'? 

>>>| browser. implicitly _wait(1@> 
>>> 

















8-12 ”模拟 百度 搜索 


这 里 要 关注 一 个 函数 implicitly_wait()。 使 用 Selenium&PhantomJS 最 大 的 优势 是 支持 
JavaScript， 而 PhantomJS 浏览 器 解释 JavaScript 是 需要 时 间 的 。 这 个 时 间 是 多 少 并 不 好 确 
定 ， 当 然 可 以 用 time.sleep0 强 行 休 卢 等待 一 个 固定 时 间 。 可 这 个 固定 的 时 间 定 长 了 ， 浪 费时 
间 ; 定 短 了 ， 又 没 能 完整 地 解释 JavaScript. Implicitly wait 函数 则 完美 地 解决 了 这 个 问题 ， 
给 implicitly wait 一 个 时 间 参 数 。Implicitly_wait 会 智能 等 待 ， 只 要 解释 完成 了 就 进行 下 一 
步 ， 完 全 没有 浪费 时 间 。 下 面 从 网 页 的 框架 中 选取 表单 框 ， 并 输入 搜索 的 关键 词 ， 完 成 搜索 
的 过 程 。 


8.3.2 ”获取 搜索 结果 

第 二 步 定位 表单 框架 或 “有 效 数据 ”位 置 ， 可 以 用 import 导入 bs4 来 完成 ， 也 可 以 用 
Selenium 本 身 自 带 的 函数 来 完成 。Selenium 本 身 给 出 了 18 个 函数 ， 总 共 8 种 方法 从 返回 数 
据 中 定位 “有 效 数据 ”位 置 。 这 些 函数 分 别 是 : 


find element(self, by-'id', value-None) 

find element by class name(self, name) 

find element by css selector(self, css selector) 
find element by id(self, id ) 

find element by link text(self, link text) 

find element by name(self, name) 

find element by partial link text(self, link text) 
find element by tag name(self, name) 

find element by xpath(self, xpath) 


find elements(self, by-'id', value-None) 

find elements by class name(self, name) 

find elements by css selector(self, css selector) 
find elements by id(self, id ) 

find elements by link text(self, text) 
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find elements by name(self, name) 

find elements by partial link text(self, link text) 
find elements by tag name(self, name) 

find elements by xpath(self, xpath) 


这 18 个 函数 前 面 的 9 个 带 element 的 函数 将 返回 第 一 个 符合 参数 要 求 的 element， 后 面 9 
个 带 elements 的 函数 将 返回 一 个 列表 ， 列 表 中 包含 所 有 符合 参数 要 求 的 element。 命 名 是 9 个 
函数 ， 为 什么 只 有 8 种 方法 呢 ? 上 面 函 数 中 ， 不 带 by 的 函数 ， 配 合 参数 可 以 替代 其 他 的 函 
数 。 例 如 : find_element(by='id'，value='abc) 就 可 以 替代 find element by id(abc)。 同 理 ， 
find_elements(by='id', value='abc) 也 可 以 替代 find_elements_by_id(‘abc'). 

这 8 种 定位 方法 组 合 应 用 ， 灵 活 配合 ， 可 以 获取 定位 数据 中 的 任何 位 置 。 在 使 用 浏览 器 
请 求 数据 时 ， 用 find element by name. find element by class name. find element by id. 
find element by tag name 会 比较 方便 。 一 般 的 表单 、 元 素 都 会 有 name. class. id, KEE 
位 会 比较 方便 。 如 果 仅 仅 是 为 了 获取 “有 效 数 据 ” 的 位 置 ， 还 是 find_element_by_xpath 和 
find element by css 比较 方便 。 强 烈 推荐 find_element_by_xpath， 真 的 是 超级 方便 。 

先 定位 文本 框 ， 输 入 搜索 关键 词 并 向 服务 器 发 送 数据 。 在 Chrome 中 打开 百度 主页 ， 

看 源 代码 页 面 (如果 想 全 程 无 GUI， 也 可 以 直接 在 Selenium 中 用 page source. 获取 页 面 代 
码 ， 保 存 后 再 慢 慢 搜索 ， 不 过 这 样 就 比较 麻烦 了 ) 。 在 源 代码 页 面 搜索 type=text， 也 就 是 查 
找 页 面 使 用 的 文本 框 ， 搜 索 结果 如 图 8-13 所 示 。 








Œ B view source:https://www.baidu.com arog 
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图 8-13 ”搜索 文本 框 位 置 
从 图 8-13 可 以 看 出 文本 框 里 有 class, name, id 属性 ， 可 以 使 用 find element by class name, 
find element by id, find element by name 来 定位 。 执 行 命令 : 


textElement = browser.find element by class name('s ipt') 
textElement - browser.find element by id('kw') 
textElement = browser.find element by name('wd') # 这 三 个 任 选 其 一 都 可 以 








textElement.clear() 
textElement.send keys('Python selenium!) 
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回 到 Chorme 中 百度 源 代码 页 面 ， 搜 索 type=submit， 定 位 submit 按键 位 置 ， 如 图 8-14 
所 示 。 





Q B view-source:https://www.baidu.com arson 


Vav div ascle 7d div E} AETI zl 
^» <div id=s_fm class=s_form> <div cj YPe=submi LILAR. 
lg img 





alvlx|* 





width=270 height=129 
p id-s_mp><area style=" cursor:pointer; outline:none;” shape-rect 
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id=imsg href-"h:tp: //mm. baidu. com/#” onmousedown="return 

user c(( fm’ :’set’,’ tab’ :’imsg’,’ login’ :’ 1’ )) “> 消息 </a>Ka href="javascript: ;” name=tj_settingicon 
class=pf) 设 置 (i class="c-icon c-icon-triangle-down”></i></a><a href-http://i. baidu. com id-user 


图 8-14 ”搜索 submit 按键 


从 图 8-14 可 看 出 ，submit 按键 有 id. class 属性 ， 可 以 用 find element. by class name 和 
find_element_by_id 定位 。 执 行 命令 : 
submitElement = browser.find_element_by class_name('btn self-btn bg s_btn') 


submitElement = browser.find element by id('su') # 这 两 个 任 选 一 个 
submitElement.click() 





print browser.title 


执行 结果 如 图 8-15 所 示 。 


5 2015, 20:48:30) [MSC v.1508 64 bit < 


opyright", "credits" or "license" for more information. 
from selenium inport webdriver 

browser = webdriver.PhantonJSC? 

browser. get¢’ https ://uw.baidu.con') 

browser. implicitly wvait(1@> 


textElement = browser.find element by class nane('s ipt') 
|textElenent.send keysC'Python seleniun’ > 





8-15 ”获取 搜索 结果 
此 时 browser 已 经 获取 搜索 的 结果 。 
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8.3.0 ”获取 有 效 数 据 位 置 

第 三 步 获 取 “ 有 效 数据 ”位 置 或 者 说 是 element。 先 定位 搜索 结果 的 标题 和 链接 ， 再 回 到 
Chrome 浏览 器 ， 在 百度 中 搜索 python selenium ， 在 搜索 结果 页 面 中 查看 源 代码 。 因 为 
Chrome 浏览 器 和 PhantomJS 浏览 器 返回 的 结果 可 能 有 所 不 同 ， 这 里 只 需要 知道 返回 结果 的 大 
臻 结构， 不 需要 完全 一 致 。Chrome 浏览 器 返回 结果 如 图 8-16 所 示 。 


€ > © Bhttps//wwwbaiducom/shw 





e 
Bai tE [pyron secum 


EEAS 
Selenium Py > Von 2 Getting Started 3 Navigating 4 Locating 
Elements 5 Walts 6. Page Objects 7 WibCyiver API 3. 

Hips selenium python raan ~ Eee af 


boiver trom selenium webdiver common Keys import Keys driver = 
geht orm python erg) asset 
+ BEEN 0 


201359295) - 3 Fsetoni «&sz38n 
AMID RILA Forton JEU 
wuwenbloge comitnngia ~~ BIERS 


图 8-16 Chrome 浏览 器 搜索 结果 
打开 源 代 码 页 面 搜索 第 一 个 结果 的 标题 Selenium with Python， 如 图 8-17 所 示 。 


© | B view-source:https://www.baidu.com/s?wd=python%20seleniumésv_spt=16Q vv & O 4 œ 





Y Selenium with Python — mi&.zi&|^|v|x 


href = "http: //wm. baidu. con/link?url-N2Zv2Gbm-PaGppZdZCUOF 61vJE3 jv zOUS-LANBdShklipc jEzND— 
klykdaXZW9xGsjl6bfS3l2ErCR pcHZrUeX " 
target="_blank” 


><em>Selenium</en> with <em)Python</em> 一 <em>Selenium</em> <em>Python</em> Bindings 2 ... </a> 
</n3><div class=“m”> 查 看 此 网 页 的 中 文 翻译 ， 请 点 击 &nbsp; <a href="http://mw. baidu. com/1ink? 
url=AjerUBZhxQu0xVb02y7 ge9F yZi RQBSK -JG-L2Xy 2BBuG ludStXOVHOj 202hCXUT 1wVZDq53v6xY cP_F A~ 


YbAfNj6ybxKeRl6z]WTRSH4Sui qs6-gd3vZ0RQ0 tcyAZXf8DC xykDG4KDyT9coxLdlhtR4LZcGF2- 

plL 3LQhy_TCHOSKPmsxbf1¥m65r 08m3moxgDRZFNBQSYYDUSsir fZK” target="_blank” class=" m MiP A </a></div> 
<div class-"c-abstract c-abstract-en”><em)Selenium</em> <em>Python</em> Bindings latest 1. 
Installation 2. Getting Started 3. Navigating 4. Locating Elements 5. Waits 6. Page Objects 7. 
WebDriver API 8... </div><div class="f13"><a target="_blank” href-"http://eww. bai du. con/link? 


url=N2Zv2Gbm-PgGppZ dZCUOF61 vJE3 jvzOUS-LAWB. 
» Ecc i "| 


dShKNpc jE zWD-k1: f312ErCR pcHZrUeX " 


H 


ndings ss Url: http: a: 1 Jvz 
LAWBdShKNpc jEzWD-k1 ykdaXZW9 xGs j16b£312ErCI i ^» class-"c-icon c-icon- 
triangle-down-g”></i></a></div><span clas: -icons-outer^?(span cla: icons-inner”></span> 


图 8-17 搜索 结果 定位 
在 这 里 发 现 了 一 个 比较 特别 的 属性 class="c-tools"， 在 代码 中 查找 这 个 属性 ， 如 图 8-18 所 示 。 
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Q & view-source:https://www.baidu.com/s?wd -python?620selenium&rsv spt-1£& ty d O © œ 
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图 8-18 42% class 属性 


发 现 共 有 10 个 结果 ， 并 且 第 二 个 搜索 结果 的 标题 和 搜索 页 面 中 第 二 个 搜索 结果 相同 ， 再 
数 一 数 百 度 搜索 结果 页 面 中 总 共 10 个 结果 。 可 以 确定 所 有 的 搜索 结果 中 都 包含 有 class= 
tools" 标 签 ， 可 以 使 用 find elements by class name 定位 所 有 的 搜索 结果 了 。 执 行 命令 : 


resultElements = browser.find elements by class_name(‘c-tools’) 













































len (resultElements) 


执行 结果 如 图 8-19 所 示 。 


画 CAWindows\system32\cmd.exe - python 
€:\Users\king>python D 
Python 2.7.11 (w2.7.11:6d1b6a68f775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit < 
AMD64>1 on vin32 E 
Type "help", "copyright", "credits" or "license" for more information. 

fron lenium import webdriver 

browser = webdriver.PhantonJS C) 

browser.get¢’ https ://www. baidu.com’ > 

browser. implicit ly wait (18> 





textElement = browser.find_elenent_by_class_name<’s_ipt’> 
textElenent .send_keys<’ Python selenium’ > 


submitElement = brouser.find element by idC'su') 
submitElenent .click¢> 


print browser.title 


Python seleniun FERR 
>> 











8-19 ”定位 搜索 结果 











这 里 使 用 的 是 find_elements， 不 是 find_element。 定 位 多 个 结果 时 用 elements. | 











一 般 来 说 定位 结果 用 find_element_by_xpath 或 find_element_by_css 比较 方便 ， 如 果 结 果 
中 有 特殊 的 属性 ， 用 find element by class name 也 挺 好 ， 哪 个 方便 就 用 哪 一 个 。 


318 


8.3.4 ”从 位 置 中 获取 有 效 数据 
有 效 数据 的 位 置 确定 后 ， 如 何 从 位 置 中 过 滤 出 有 效 的 数据 呢 ? 一 般 就 是 获取 element 的 
文字 或 者 获取 Element 中 某 个 属性 值 。Selenium 有 自己 独特 的 方法 ， 分 别 是 : 


element.text 


element.get_attribute (name) 


回 到 Chrome 浏览 器 搜索 结果 的 源 代码 页 面 ， 如 图 8-20 所 示 。 





w-source:https://www.baidu.com/« iwd- python?520. 
UXRPITSDT WTOUSTOSOTE UKZ TREUS T TUUSSTTTZR 





图 8-20 有 效 数据 
所 需 的 有 效 数据 就 是 data-tools 属性 的 值 。 执 行 命令 : 


value = resultElements[0].get attribute('data-tools') 
valueDic = eval (value) 

print valueDic.get('title').decode('utf8') 

print valueDic.get('url') 


执行 结果 如 图 8-21 所 示 。 


>>> value = resultElements[8].get attribute('data-tools') 
>>> valueDic = eval<value> 

>>> print valueDic.get¢’ title’ >.decode<’utf8’ > 

Selenium with Python — Selenium Python Bindings 2 ... 


>>> print valueDic.get(’url’> 

http://www. baidu.com/Link?ur1-6Te@ygsF8h9uDPr¥MI nuU£ I tx jOgHBiBpxGMPxpE1 rcekZgzUt 
fir 7Fuui DF BJeO3upI jZKRra3QG2Y p. YVUeLga. 

>>> 








图 8-21 获取 有 效 数 据 


遍历 resultElements 列表 ， 可 以 获取 所 有 搜索 结果 的 tite 和 url。 至 此 ， 已 将 
Selenium&PhantomJS 扑 虫 运行 了 一 遍 。 根 据 这 个 过 程 可 以 编写 一 个 完整 的 息 虫 。 


Selenium&PhantomJS 实战 一 : 获取 代理 


用 Selenium&PhantomJS sem MAI, BISA AMIE EIEN A JavaScript 的 网 
Xi, BARKEN ext — E4373. TE Scrapy EEP eH CHES SRI DIT, XX BR 
以 Selenium&PhantomJS Ej [FEBR AS BAA, REA AIA. 
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8.4.1 准备 环境 
在 Scrapy 疏 虫 中 获取 了 代理 ， 需 要 自行 验证 代理 是 否 可 用 。 这 次 将 在 www.kuaidaili.com 
中 获取 已 经 验证 好 了 的 代理 服务 器 。 打 开 目 标 站 点 主页 ， 如 图 8-22 所 示 。 








园 EsmERmaTOAR x 


开放 代理 UHM AP 以 口 














图 8-22 目标 主页 
最 终 需 要 获取 的 有 效 数 据 就 是 代理 服务 器 。 从 中 可 以 看 出 网 站 也 给 出 了 API 接口 。 从 好 
的 方面 想 ， 有 现成 的 API 接口 获取 代理 服务 器 会 更 加 方便 ; 但 从 坏 的 方面 考虑 ， 因 为 本 身 就 
有 API 接口， 那么 限制 伶 虫 恐怕 就 更 加 方便 了 。 
单 击 API 接口 的 链接 查看 一 下 ， 如 图 8-23 所 示 。 





€ > C Dwwwkuaidailicoryapid 
</proxylist? 
/data> 
</result? 





xal version="1.0° enco 





result 
‘code>-1</code? 
(sp SERIE Casp 
data 
/data> 

</result> 














8-23 API 限制 条 件 
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JE, RARR, FARINA MER. PIE TH A IRL 


连接 登录 到 Linux, HAM RIGA As. ita: 


mkdir -pv selenium/kuaidaili 


cd $_ 


执行 结果 如 图 8-24 所 示 。 


B. 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


HHPPEDEODEOEEO EEO H OREO EEE R EERE EOE OREE 
#linux user:password 

#king:qwe123 

#root:debian8 

' 

4mysql user:password 

#root:debian8 

#crawlUSER:crawl123 

PEE EE EE ELLE 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 
Last login: Sat Jan 27 18:45:06 2018 from 192.168.1.99 
king@debian8:~$ cd code/ 
king&debian8:-/codes[mkdir -pv selenium/kuaidaili 
: 已 创建 目录 "selenium 
: 已 创建 目录 "selenium/kuaidaili" 
king&debian8:-/code$[cd $ — ] 
king@debian8:~/code/selenium/kuaidailis [] 


图 8-24 ”准备 工作 目录 


























下 面 就 可 以 在 该 目录 下 编写 息 虫 文件 getProxyFromKuaidaili.py。 


8.4.2 ERRE 


【示例 8-1] getProxyFromKuaidaili.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
__author_ = 'hstking hst_king@hotmail.com' 


from selenium import webdriver 
from myLog import MyLog as mylog 
import codecs 


pageMax = 10 #f@RAym a 


saveFileName = 'proxy.txt' 


class Item(object) : 


ip = None HEB IP 地 址 
port = None # 代 理 IP 端口 
anonymous = None # 是 否 匿名 


打开 Putty, 
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17 
18 
19 
20 
21 
22 
2S 
24 
25 
26 
2 
28 
29 
30 
31 
32 
33 
34 
35 
36 
m 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 


protocol = None # 支 持 的 协议 http or https 
local = None # 物 理 位 置 

speed = None # 测 试 速度 

uptime = None # 最 后 测试 时 间 


class GetProxy (object): 


def — init (self): 
self.startUrl = 'https://www.kuaidaili.com/free' 
self.log = mylog() 
self.urls = self.getUrls() 
self.proxyList = self.getProxyList (self.urls) 
self.fileName = saveFileName 
self.saveFile(self.fileName, self.proxyList) 


def getUrls (self): 
urls = [] 
for word in [linha "intr" 
for page in range(1, pageMax + 1): 

urlTemp = [] 
urlTemp.append(self.startUrl) 
urlTemp.append (word) 
urlTemp.append (str (page) ) 
urlTemp.append('') 
url = '/'.join(urlTemp) 
urls.append (url) 

return urls 


def getProxyList(self, urls): 

proxyList = [] 

item = Item() 

for url in urls: 
self.log.info('crawl page :%s' %url) 
browser = webdriver.PhantomJdS () 
browser.get (url) 
browser.implicitly wait (5) 
elements = 


browser.find elements by xpath('//tbody/tr') 


54 
55 


for element in elements: 
item.ip - 


element.find element by xpath('./td[1]').text 


56 


item.port = 


element.find element by xpath('./td[2]').text 


iu) 


item.anonymous = 


element.find element by xpath('./td[3]').text 


58 


item.protocol = 


element.find element by xpath('./td[4]').text 


59 


item.local = 


element.find element by xpath('./td[5]').text 


60 


item.speed = 


element.find element by xpath('./td[6]').text 
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61 item.uptime = 
element.find element by xpath('./td[7]').text 


62 proxyList.append (item) 

63 self.log.info('add proxy $s:$s to list' 
$(item.ip, item.port)) 

64 browser.quit() 

65 return proxyList 

66 

67 def saveFile(self, fileName, proxyList): 

68 self.log.info('add all proxy to $s' $fileName) 

69 with codecs.open(fileName, 'w', 'utf-8') as fp: 

70 for item in proxyList: 

71 fp.write('$s \t' %item.ip) 

J2 fp.write('$s \t' %item.port) 

73: fp.write('$s \t' %item.anonymous) 

74 fp.write('$s \t' %item.protocol) 

75 fp.write('$s \t' $item.local) 

76 fp.write('%s \t' %item.speed) 

TI fp.write('%s \r\n' %item.uptime) 

78 

79 

80 if name == '_main_': 

81 GP = GetProxy() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 结果 ， 再 将 之 前 项 目 中 用 过 的 myLog.py 复制 到 
当前 目录 下 。 查 看 当前 目录 ， 执 行 命令 : 

tree 

执行 结果 如 图 8-25 所 示 。 


no@debiane: -Jcodejileriumf ein 


king@debian8:~/code/selenium/kuaid. 


| 六 getProxyFromKuaidaili.py 
L— myLog.py 


0 directories, 2 files 
king@debian8 :~/code/selenium/kuaidailis [] 








图 8-25 显示 目录 文件 
isdem fb, durar: 


python3 getProxyFromKuaidaili.py 
tree 


执行 结果 如 图 8-26 所 示 。 
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i king @debian8: -/code/selenium/kuaidaili - n x 







t ^ 
[2018-01-27 22:25:42,662 INFO king add proxy 218.56.132.157:8080 to lis 
3 

2018-01-27 22:25:42,764 INFO king add proxy 183.51.191.183:9797 to lis 
t 

[2018-01-27 22:25:42,847 INFO king add proxy 218.6.145 

[2018-01-27 22:25:42,932 INFO king add proxy 218.6.145 

2018-01-27 22: INFO king add proxy 61.155 





t 
2018-01-27 22:25:43,118 INFO king add proxy 61.155.164.106:3128 to lis 
t 

[2018-01-27 22:25:43,124 INFO 
king@debian8 :~/code/selenium/kuai 


add all proxy to proxy.txt 





|— getProxyFromKuaidaili.log 
[— getProxyFromKuaidaili.py 
| 一 [ghostdriver.1og 
|— nyLog.py 
|— proxy. txt 
L— __pycache__ 

L— myLog.cpython-34.pyc 








1 directory, 6 files 
king@debian8:~/code/selenium/kuaidailis lj v 


图 8-26 3efrfem 


这 里 的 getProxyFromKuaidaili.log 是 用 户 定义 的 日 志文 件 。Proxy.txt 是 最 终 得 到 的 结果 。 
Ghostdriver.log 是 运行 PhantomJS 的 日 志文 件 。 











8.4.3 ”代码 解释 


示例 8-1 这 个 疏 虫 程序 本 身 并 不 复杂 。 第 6~8 行 是 导入 所 需 的 模块 ， 其 中 myLog 模块 是 
自 定 义 模块 ， 也 就 是 后 来 复制 到 当前 目录 的 myLog.py 文件 。 

第 10~11 行 定义 了 2 个 全 局 变量 。 变 量 在 类 中 定义 也 可 以 ， 放 在 这 里 是 为 了 修改 起 来 比 
较 方便 。 

第 13~20 行 定义 了 一 个 Item 类 。 这 个 类 的 作用 是 为 了 方便 装载 怜 虫 获取 的 数据 ， 基 本 包 
含 了 网 页 中 的 所 有 项 。 

第 22~77 行 定义 了 一 个 从 kuaidili 站 点 中 获取 proxy 的 类 。 这 个 类 包含 了 3 个 类 函数 。 
getUrls 函数 用 于 返回 一 个 列表 ， 这 个 列表 包含 了 所 有 有 效 数据 的 网 页 地 址 。getProxyList ER 
数 从 网 页 中 获取 有 效 数据 ， 并 保存 到 一 个 列表 中 。 最 后 的 saveFile 函数 将 所 有 列表 中 的 数据 
保存 到 文件 中 。 














总 " 5 Selenium&PhantomJS 实战 二 : 漫画 爬虫 


Selenium&PhantomJS 可 以 说 是 专 为 JavaScript 而 生 的 。 从 前 面 的 项 目 中 已 经 熟悉 了 
Selenium&PhantomJS 的 用 法 。 本 节 学 习 使 用 Selenium&PhantomJS 获取 JavaScript 返回 的 数 
据 。 一 般 来 说 ， 网 站 上 用 JavaScript 返回 数据 ， 主 要 是 为 了 美观 ， 第 二 个 目的 估计 就 是 增加 
疏 虫 的 难度 了 。 这 里 只 是 讨论 技术 实现 的 手段 ， 请 遵循 “不 作恶 ”原则 ， 不 要 侵犯 他 人 的 知 
识 产 权 。 
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8.5. 准备 环境 


一 般 来 说 在 线 看 漫画 的 网 站 都 会 使 用 JavaScript 来 返回 页 面 ， 直 接 在 页 面 上 贴 出 图 片 的 
下 载 地 址 ， 稍 微 有 点 常识 能 


识 的 程序 员 都 不 会 这 么 做 ， 那 完全 是 在 测试 访问 者 的 人 品 。 在 Chrome 
中 打开 百度 搜索 ， 搜 索 在 线 漫 画 ， 如 图 8-27 所 示 。 











€ > Q A hitps/www.baiducom/stwd-= spt-l&rsv iqid-Oxd031e0d00& zy d A 
Batter FERRE J 
网 页 mmo Gum ** BR oH 地 图 E F$ 
Ls nerd 
Obre masma 






FAAR Me RE RT R 
oud 于 漫画 的 版 权 归 原 温 画 











8-27 寻找 目标 站 点 


个 搜索 结果 已 经 很 明确 地 提出 了 “禁止 下 载 ”， 算 了 ， 找 第 二 个 好 了 。 打 开 第 二 个 
搜索 结果 ， 如 图 8-28 所 示 。 


第 一 


首页 | 今日 更 新 | 原创 精品 


Pris ME 武侠 格斗 DRE 


HONO 竞技 体育 AZSR 








图 8-28 选取 目标 
任 选 一 个 目标 就 可 以 ， 这 里 选取 第 一 个 漫画 。 





打开 漫画 浏览 页 面 ， 如 图 8-29 所 示 。 
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图 8-29 ”爬虫 起 始 页 面 


ie KE Windows 下 使 用 Eclipse 完成 。 打 开 Eclipse， 新 建 PyDev Project， 项 目 名 
为 getCartoon。 


8.5.2 ERRE 
在 getCartoon 项 目 中 创建 一 个 PyDev Module， 名 字 为 cartoon1.py。 


【示例 8-2] cartoonl.py 的 代码 如 下 : 


#!/usr/bin/evn python3 
#=*= coding: utf-B =*= 


Created on 2016 年 9 月 10 日 


@author: hstking hst_king@hotmail.com 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 


HH 
P o'0-oosmUutWNnm 


12 import time 

13 

14 class GetCartoon (object): 

15 def _ init (self): 

16 self.startUrl = u'http://www.lkkk.com/ch1-406302/"' 
alin self.log - mylog() 

18 self.browser - self.getBrowser() 

H9 self.saveCartoon(self.browser) 

20 

21 


326 


22 def getBrowser (self): 


23 browser = webdriver.PhantomJdS () 
24 try: 
25 browser.get (self.startUrl) 
26 except: 
2 mylog.error('open the $s failed' $self.startUrl) 
28 browser.implicitly wait (20) 
29 return browser 
30 
31 def saveCartoon(self, browser): 
32 cartoonTitle = browser.title.split(' ')[0] 
33 self.createDir(cartoonTitle) 
34 os.chdir(cartoonTitle) 
35 sumPage = 
int(self.browser.find element by xpath('//font[G8class-"zf40"]/span[2]') .text) 
36 i=1 
37 while i<=sumPage: 
38 imgName = str(i) + '.png' 
39 browser.get_screenshot_as_file(imgName) 
40 self.log.info('save img %s' %imgName) 
41 i +=1 
42 NextTag = browser.find element by id('next') 
43 NextTag.click() 
44 4 browser.implicitly wait(20) 
45 time.sleep(5) 
46 self.log.info('save img sccess') 
47 exit() 
48 
49 def createDir(self, dirName): 
50 if os.path.exists (dirName): 
51 self.log.error('create directory $s failed, hava a same name 
file or directory' $dirName) 
52 else: 
53 try: 
54 os.makedirs (dirName) 
55 except: 
56 self.log.error('create directory $s failed' $dirName) 
57 else: 
58 self.log.info('create directory $s success' $dirName) 
59 
60 
61. i£ _ nape — mata: 
62 GC = GetCartoon () 


再 将 之 前 项 目 中 的 mylog.py 复制 到 项 目 中 (Linux 中 复制 的 是 myLog.py， 实 际 上 是 一 个 
文件 ， 只 不 过 Windows 下 不 区 分 大 小 写 而 已 ) 。 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 
如 图 8-30 所 示 。 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
LE "Om ES 


Pe T Quick 





Hb PyDev Package- 2 | = E] El cauound 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 

import time 





Ty catoonilog 
回 cattoon1.py 


E ghostdriverlog class GetCartoon(object): 














EER def _ init (self) 
DAProgram Files\python SUF lce = wy1og() 
© baiduBs4 self.browser = self.getBrowser() 
88 browserSpeed 19 self-saveCartoon(self.browser) 
en self.browser.qui: 
 getBulletin 
 helloPython 2 
© MechanizeAndBs4 2 def getBrowser(self): 
Wd a = webdriver.Phantom3S() 
© qidiongs4 26 browser -get(self-sterturl) 
© seleniumBaiduNews 2 ae « ee 
2 mylog.error elf. star 
Bet 2 browser.implicitly wait(20) 
13 winningNumBSA 4 m 
13 YinyueTaiBs4 3 
© Console 22 m XO. | s Dee 
«terminated» E:\save\sync\code\crawler\bs4Project\getCartoon\cattoon]| 
2016-09-11 20:13:58,088 INFO king save img 25.png 
20:14:05,019 INFO save img 26.png 
14:10,151 INFO save img sccess 














N 


3247 Eh Cartoonl.py 


日 志文 件 显示 操作 成 功 。 项 目 中 也 得 到 了 漫画 的 目录 。 打 开 下 载 的 漫画 目录 ， 如 图 8-31 
所 示 。 





Ce - =- | 
(E) » save » sync » code p crawler » bsdProject » getCartoon » MBPS TAL 
-— — 


IAM WAH) 
共享 ” Spok 。 新 建文 件 夫 








8-31 获取 的 结果 
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最 终 保 存 的 结果 不 是 单纯 的 漫画 ， 而 是 整个 页 面 的 截图 。 


8.5.8 ”代码 解释 
示例 8-2 XB, A 60 多 行 。 第 9-12 行 是 导入 所 需 的 模块 。 第 14-58 fre E dh 
K, iX E m3 FUB 3 个 类 函数 。 
© 第 22-29 行 是 类 函数 getBrowser 的 原型 ， 它 的 作用 是 返回 一 个 browser 对 象 。 这 里 
稍微 要 注意 点 的 就 是 browser.implicitly_wait(20)， 它 的 作用 是 设 定 了 智能 等 待 的 最 
长 时 间 。 
© 第 31~47 行 是 类 函数 savaCartoon。 这 个 函数 将 从 网 站 中 获取 图 片 ， 并 保存 到 新 建立 
的 文件 夹 中 。 文件 夹 的 名 字 是 从 网 页 的 tile 中 获取 的 。 从 网 页 中 获取 了 这 个 漫画 的 
总 页 数 ， 因 为 这 个 漫画 在 最 后 一 页 (第 26 页 ) 还 是 有 “下 一 页 ”的 按钮 ， 没 办 法 
通过 是 否 存 在 “下 一 页 ”按钮 来 确定 是 不 是 最 后 一 页 ， 所 以 必须 先 获取 这 个 漫画 的 
总 页 数 。 Seleniuim&PhantomJS 解释 了 页 面 的 JavaScript， 也 将 解释 后 得 到 的 图 片 显 
示 在 浏览 器 上 了 ， 但 这 个 站 点 在 防盗 链 上 做 得 很 到 位 ， 只 要 在 页 面 上 执行 一 次 刷新 
操作 ， 网 站 就 判 为 盗 链 ， 显 示 出 防止 盗 链 的 图 片 ， 并 且 得 到 的 图 片 链接 地 址 也 无 法 
下 载 ， 所 以 最 简单 的 方法 就 是 对 整个 页 面 进行 截图 。 好 在 Selenium 本 身 就 有 截图 工 
具 ， 还 算 方便 。 另 外 ， 在 NextTag.click() 之 后 使 用 的 并 不 是 Selenium 的 智能 等 待 
implicitly_wait， 而 是 time.sleep， 因 为 implicitly_wait 对 NextTag.click() 并 不 起 作 
用 ， 反 而 是 使 用 time.sleep 的 效果 比较 好 。 
€ 第 49-58 行 是 类 函数 createDir， 作 用 是 创建 一 个 目录 。 为 了 防止 有 同名 的 目录 ， 先 
在 函数 内 做 出 判断 。 


这 个 候 虫 虽然 将 漫画 全 部 保存 下 来 了 ， 但 也 把 页 面 上 多 余 的 部 分 保存 了 ， 上 略 有 瑕 竟 。 如 
果 想 追求 完美 ， 也 可 以 通过 其 他 的 模块 将 所 需 的 漫画 裁剪 下 来 。 


8.6 本 章 小 结 


Selenium&PhantomJS 疏 虫 功能 很 强 ， 但 效率 并 不 高 。 对 访问 者 限制 不 严格 的 网 站 ， 
一 般 不 建议 使 用 Selenium&PhantomJS 爬虫 。 仅 仅 是 对 那些 通过 JavaScript 返回 有 效 数据 
的 网 站 ，Selenium&PhantomJS 疏 虫 效果 还 不 错 ， 如 果 没 有 更 好 、 更 方便 的 选择 ， 这 可 能 
是 最 好 的 方案 了 。 
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Pyspider MEHER — 4- HE ELA E TETTE AI Python MERHER. 5; Hifi fe HEAR AS Tal I 
Pyspider 不 需要 任何 编辑 器 或 者 IDE 的 支持 。 它 直接 在 Web 界面 ， 以 浏览 器 来 编写 调试 程序 
脚本 。 在 浏览 器 上 运行 、 起 停 、 监 控 执 行 状态 、 查 看 活动 历史 、 获 取 结 果 。Pyspider 支持 
MySQL (MariaDB) 、MongoDB、SQLite 等 主流 数据 库 ， 支 持 对 JavaScript 的 页 面 抓 取 (也 
是 靠 的 PhantomJS 的 支持 ) ， 重 要 的 是 它 还 支持 分 布 式 聆 虫 的 部 署 ， 是 一 款 功 能 非常 强大 的 
Me HEAR. Pyspider 上 手 比较 简单 ， 但 想 深入 了 解 也 是 要 花 点 工夫 的 。 


按照 Pyspider 官方 说 明 ，Pyspider 是 支持 Python 3 的 ， 但 在 安装 Pyspider for Python 3 时 


总 会 遇 到 问题 。 本 章 采用 的 是 Python 2 的 Pyspider。 





9. 1 安装 Pyspider 


基于 Pyspider 纯正 的 Python 血统 ， 安 装 Pyspider 最 简单 的 方法 是 用 pip。 如 果 需 要 最 新 
版 本 的 Pyspider 可 以 到 官网 下 载 最 新 版 本 安装 ， 或 者 用 git 来 安装 。 


9.1.1 Windows 下 安装 Pyspider 


在 Windows 中 安装 Pyspider 采用 比较 简单 的 pip 安装 ， 进 入 桌面 后 ， 单 击 左下 角 的 开始 
按钮 ， 在 弹出 菜单 中 单 击 “ 运 行 ”， 打 开 cmd.exe， 执 行 命令 : 


pip install pyspider 
一 定 要 先 配 置 好 pip 的 源 ， 否 则 安装 会 慢 得 令 人 难以 接受 。 


执行 结果 如 图 9-1 所 示 。 


Running setup.py bdist wheel for pyspider ... done 
Stored in directory: C:Wsers\king\AppData\Local\pip\Cache whee 15 N19 N87 scd N3£8 
8h4e31a5145ae51839685£296865971£45089812367h65 
Running setup.py bdist wheel for tornado ... done 
Stored in directory: C:\Wsers\king\AppData\Local\pip\Cache whee 15 \ef N38 Ncc \dec 
9c4340d403h575£3d91d662179612££755db962246£63h5 
Running setup.py bdist wheel for itsdangerous ... done 
Stored in directory: C:Wsers\king\AppData\Local\pip\Cache whee 15 8758c Ndd N3d9 
9db64bF£5d2763528de6Bf dee25£ 43db896ac3875c1a52 
Running setup.py bdist wheel for MarkupSafe ... done 
Stored in directory: C:\Wsers\king\AppData\Local\pip\Cache Whee 15 NLe N68 S475 bi. 
la4h2c2f bf b3£ b2c86aa823b080152a2644ac4758370996 
Successfully built pyspider tornado itsdangerous MarkupSafe 
Installing collected packages: itsdangerous, click, Werkzeug, MarkupSafe, Jinja2 
|| Flask, chardet, pycurl, pyquery, urllib3, certifi, requests, singledispatch, b 
ackports-abc, tornado, Flask-Login, u-msgpack-python, tblib, defusedxml, wsgidav 
|. pyspider 
Successfully installed Flask-8.12.2 Flask-Login-8.4.8 Jinja2-2.18 MarkupSafe-i.@ 
Merkzeug-0.12.2 backports-abc-8.5 certif i-20! = ick-6,7 def 
sedxnl-8.5.0 itsdangerous-0.24 pycurl-7.43.0 |pyquery-1.3.0 pyspide -9| reque 
|5ts-2.18.4 singledispatch-3.4.0.3 tblib-1.3.2 tornado-4.5.2 u-nsgpack-python-2.4 
1 urllib3-1.22 usqidav-2.2.4 

















:Nlsers king? 





图 9-1 pip 安装 Pyspider 
Pyspider 已 经 安装 完毕 了 。 这 里 要 注意 的 是 ，Pyspider 默认 是 需要 PhantomJS 支持 的 
(PhantomJS 在 前 面 的 章节 中 已 经 安装 过 了 ) 。 如 果 没 有 安装 PhantomJS， 那 么 在 运行 过 程 
中 可 能 会 出 现 警告 信息 。 











cis Pyspider 对 Windows 的 支持 不 是 非常 好 。 如 果 条 件 允许 ， 尽 量 避 人 免 在 Windows 下 使 用 
| ”Pyspider 框架 。 官 方 网 站 也 对 此 做 了 说 明 。 








9.1.2 Linux 下 安装 Pyspider 

在 Linux 下 安装 Pyspider 可 能 会 出 现 依赖 性 的 问题 。 这 里 采用 最 安全 的 方法 ， 使 用 
Anaconda 创建 虚拟 环境 Python 3 后 ， 在 虚拟 环境 下 安装 Pyspider， 这 样 可 以 完美 地 解决 依赖 
性 的 问题 Anaconda 的 安装 请 参考 其 他 资料 ) 。 执 行 命令 : 

su 

cd /usr/local/ 

git clone https://github.com/binux/pyspider.git 

ls 

cd pyspider 

python setup.py install 


执行 结果 如 图 9-2 所 示 。 
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Using /usr/1ocal/lib/pytho 

Searching for cssselect= 

Best match: cssselect 1.0.3 

icssselect 1.0.3 is already the active version in easy-install.pth 


Using /usr/local/lib/python3.4/dist-packages 


Searching for chardet==2.3.0 
Best match: chardet 2.3.0 


lchardet 2.3.0 is already the active version in easy-install.prhi 
Installing chardetect script to /usr/local/bin 

Using /usr/lib/python3/dist-packages 

Searching for MarkupSafe==0.23 

Best match: MarkupSafe 0.23 

MarkupSafe 0.23 is already the active version in easy-install.pth 

Using /usr/lib/python3/dist-packages 


Finished processing dependencies for pyspider==0.3.10-dev 
rootédebianB:/usr/local/pyspidert 


图 9-2 git 安装 Pyspider 
Pyspider 已 经 安装 完毕 。 测 试 一 下 ， 执 行 命令 : 


exit 
cd 
pyspider all 


执行 结果 如 图 








9-3 所 示 。 


king@debian8: ~ x 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 

Using /usr/lib/python2. 7/ dist- packages 

Searching for chardet==2. 3.0 

Best match: chardet 2.3.0 

khardet 2.3.0 is already the active version in easy- install. pth 
[Installing chardetect script to /usr/locaU bin 





Using /usr/lib/python2. 7/ dist- packages 

Searching for defusedxml==0. 4. 1 

Best match: defusedxml 0.4.1 

kefusedxml 0.4.1 is already the active version in easy- install. pth 


Using /usr/1ib/ python2. 7/ dist- packages PhantomJS 没 有 安装 
Finished processing dependencies for pyspider==0. 3. 10- dev 

root Gdebian8: /usr/local/pyspider# cd uet 
rootGdebian8: -# pyspider all 

171130 1 37 113] phantomjs not found, continue running without it. 



































|I 171130 11:55:39 result worker:49] result worker starting... 

|I 171130 11:55: 43 proce: r:211] processor starting... 

| I 171130 11:55:43 tornado, fetcher: 638] fetcher starting. 

[I 171130 11:55: heduler:647] scheduler starting. 

[I 171130 11:55: heduler:586] in Sm: new:0, success: 0, retry: 0, failed: 0 

[I 171130 11:55:44 scheduler: 782] scheduler. xmlrpc listening on 127. 0. 0. 1: 23333 
[I 171130 11:55:44 app: 76] [webui running on 000| < 一 Pyspider 接 品 














9-3 ”启动 Pyspider 


如 果 没 有 安装 PhantomJS， 需 要 先 安装 PhantomJS 〈 前 面 章 节 讲 过 如 何 安装 PhantomJS， 这 
只 做 演示 ) 。 这 个 接口 (Pyspider 控制 台 ) 既 可 以 本 地 访问 ， 也 可 以 远程 访问 。 在 浏览 器 中 
打开 网 址 http:/127.0.0.1:5000 或 者 在 远程 主机 上 打开 http:/1P:5000) ， 如 图 9-4 所 示 。 
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pyspider dashboard 


scheduler 0 fetcher 0 processor 0 result_worker 
0+0 
mS 
group project name status rate/burst avg time progress 





图 9-4 Pyspider WebUI 
现在 可 以 正常 使 用 Pyspider T o 


9.1.3 选择 器 pyquery 测试 


在 前 面 的 章节 中 曾 讲解 过 CSS 选择 器 和 XPath 选择 器 ， 在 Pyspider JER PARE EA CSS 
和 XPath 也 是 可 以 的 。 但 Pyspider 框架 自 备 了 pyquery 选择 器 (在 安装 Pyspider 时 pyquery 
会 自动 安装 ) ， 并 在 框架 中 为 pyquery 准备 了 提示 接口 。pyquery 选择 器 与 CSS 和 XPath 一 
样 强大 ， 同 样 支持 嵌 套 定位 。 在 Pyspider 框架 中 不 妨 试用 一 下 pyquery， 至 于 最 终 选 择 哪 一 
个 选择 器 ， 视 个 人 习惯 而 定 。 

pyquery 选择 器 不 仅仅 可 以 选择 过 滤 有 效 信息 ， 还 可 以 修改 原文 中 的 标签 属性 ， 但 在 候 
虫 中 只 需要 选择 过 滤 这 一 功能 就 足够 了 。pyquery 选择 定位 非常 简单 ， 最 常用 的 是 通过 标签 
配合 标签 属性 和 属性 值 定位 一般 来 说 通过 标签 定位 就 足够 了 ) ， 偶 尔 也 有 直接 通过 标签 属 
性 或 者 标签 属性 值 定位 的 。 

写 一 个 简单 的 网 页 song.html 做 测试 ，song.html 的 代码 如 下 : 

1 <html> 

2 <title>song</title> 
3 <body> 
4 <hl id='001'>Adele Music</h1> 
5 <ul> 
6 <li album-'21'»Someone like youc/li» 
7 <li album='25'>Hello</1i> 
8 <li album='21'>Rolling in the deep«/li» 
9 <li album='21'>Set fire to the rain</li> 
10 </ul> 
11 </body> 
12 </html> 


在 浏览 器 中 打开 该 页 面 并 显示 源 代码 ， 如 图 9-5 所 示 。 
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Gaal 


1 > 
2 Di 
Adele Music 2 oo song / title: 
4 hl id-'001'»Adele Masic</hi> 


* Someone like you 
* Hello 

* Rolling in the deep 
e Set fire to the rain x 


'»Somecne like you</1i 

" 3BelloC/li: 

">Rolling in the deep</1i> 
li album" 21 >Set fire to the rain¢/li 








图 9-5 示例 文件 song.html 


pyquery 中 的 定位 与 CSS 有 些 类 似 ， 使 用 pyquery 初始 化 对 象 后 ， 直 接 在 对 象 内 对 标签 
名 进行 定位 〈 正 常 主流 的 定位 方法 ) 。 如 果 只 需要 标签 内 的 文字 ， 使 用 pyquery 定位 后 使 用 
textO 函 数 解析 出 来 即 可 ， 在 示例 文件 的 当前 目录 下 打开 终端 〈 或 者 打开 终端 后 再 进入 示例 文 
件 的 当前 目录 ) ， 进 入 python， 执 行 命令 : 

from pyquery import PyQuery 

doc = PyQuery(filename-'song.html') 

print doc 

print doc('title') .text() 

print doc('hl').text() 

print doc('li[album = "25"]').text() 


执行 结果 如 图 9-6 所 示 。 





B 

Bil -1> cmd - python Se 5jB-u-als 
Python 2.7.12 (v2.7.12:d33e0cf91556, Jun 27 2016, 15:24:40) [MSC v.1500 64 bit (AMD64)] 
on win32 


[Type "help", "copyright", "credits" or "license" for more information. 
>>> from pyquery import PyQuery 

>>> doc = PyQuery(filename-'song.html') 

b>> print doc 

html> 


[unene] tle»songe/title» 
bo 


«hi id-"G01"»Adele Music</h1> 


«ul» 
<li album-"21"»Someone like y9b«Qi» 
[SH aIbun-"25"5HelloQ7Ii5] 
<li album="21">Rolling Ww, the deep</1i> 
<li albume"21">Set fire tothe rainc/li> | 























</ul> Tag li Tag hi Tag title 
/body> 
/html> 
i print doc(*lifalbum = “25"]").text()| 
jello 














>> print doc(“title’).text() 
jong 














9-6 pyquery 定位 后 获取 正文 


有 时 仆 虫 所 需 的 信息 是 隐藏 在 标签 属性 值 中 的 ， 这 时 就 需要 atr 函数 了 ， 继 续 在 终端 中 
执行 命令 : 


print doc('hl').attr.id 
print doc('li[album - "21"]').attr.album 
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subTags = doc('li[album = "21"]').items() 
for subTag in subTags: 
print subTag.attr.album 


执行 结果 如 图 9-7 所 示 。 


B <1> cmd - python. Search 2ie-G-aG= 
>> from pyquery import PyQuery 

>> doc = PyQuery(filename="song.html”) 

>> print doc 





ml> 
<title>song</title> 


g 3 
& 


y» 
<h1 id="001">adele Music</hi> 
<ul> 
<li album="21">Someone like you</1i> 
<li album="25" sHello</1i> 
<li album="21">Rolling in the deep</li> 
<li album="21"»Set fire to the rain</li> 
</ul> 
/body> 
/htnl» 
> print doc(‘hi").attr.id 


>> print [EC TT A T a o 
1 多 个 标签 符合 条 件 
>> subTags = [do0c( Ii[album = "21"]') iaa M — — BIA LE —~> 


>> for subTag in subTags? 
print subTag.attr.album 





1 
1 
1 
» 


> 





图 9-7 pyquery 定位 后 获取 属性 值 








cim 这 里 要 稍微 注意 一 下 ， 在 定位 时 如 果 有 多 个 标签 符合 条 件 ， | 
| ”符合 条 件 的 标签 。 











对 于 疏 虫 而 言 ， 掌 握 了 定位 、 获 取 正 文 和 获取 属性 值 基本 就 足够 用 了 。 虽 然 pyquery 还 
有 很 大 的 潜力 可 挖 ， 但 对 网 络 怜 虫 没有 什么 意义 。 如 需 继续 深究 ， 请 参考 pyquery 的 官网 或 
者 Wiki。 


Pyspider 实战 一 : Youku 影视 排行 


Pyspider 疏 虫 框架 上 手 比 较 简 单 ， 即 使 没有 使 用 过 其 他 的 爬虫 框架 ， 只 要 略 通 Python, 
也 可 以 很 方便 地 创建 企 虫 。 第 一 个 Pyspider 爬虫 ， 选 择 一 个 最 简单 的 目标 ， 即 爬 取 Youku 影 
视 中 的 热 剧 榜 单 。 
编写 聆 虫 时 ， 首 先 要 做 的 是 打开 Pyspider 怜 虫 的 接口 。 这 里 选择 在 Debian 中 打开 





Pyspider 息 虫 框架 ， 然 后 远程 连接 息 虫 接口 。 登 录 Debian， 打 开 终 端 〈 或 者 远程 连接 到 
Debian) ， 执 行 命令 : 

ls 

pyspider all & 

ls 
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ls data 
执行 结果 如 图 9-8 所 示 。 
B. debianB: ~ = 


che exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 

[permitted by applicable law. 

[Last login: Tue Dec 5 22:36:10 2017 from 192.168. 

ingédebian8:-$ 1s 
Desktop Pictures 

kingüdebianS:-5 pyspider all 5 

[1] 2245 

king@debian: 








$ phantomjs fetcher running on port 25555 
] result worker starting... 

processor starting... 

scheduler starting... 

scheduler.xmlrpc listening on 127.0.0.1:23333 

35] fetcher starting... 

running on 0.0.0.0:5000 
in Sm: new:0, success:0,retry:0,failed:0 
















ingédebian8:-$ 1s 

data Desktop Pictures 
|kingüdebian8:-$ 1s data 
[project.db result.db scheduler.ld  scheduler.1h scheduler.all task.db 
king8debians:-$ [] 











9-8 ”打开 Pyspider HEAR 


从 图 9-8 中 可 以 看 出 启动 Pyspider 框架 后 ， 在 当前 目录 中 会 自动 创建 一 个 data 文件 夹 。 
Pyspider 的 所 有 文档 都 在 data 文件 夹 中 。Pyspider 创建 的 所 有 项 目 都 在 data 文件 夹 下 的 
project.db 文件 中 (后缀 名 为 db 的 文件 是 Sqlite 3 数据 库 所 创建 的 表 ) 。 


9.2.1 创建 项 目 


根据 提示 在 浏览 器 中 打开 Pyspider 的 webui (Pyspider 控制 台 ) 。0.0.0.0:5000 在 浏览 器 
中 可 以 用 IP:5000 来 打开 ， 然 后 单 击 Create 按钮 ， 开 始 创建 Pyspider 项 目 ， 如 图 9-9 所 示 。 


D) Dashboard -pyspider X 
€ > © [o 192168180500 | 





Create New Project 





Project Name 








Start URL(s) 











Mode | Script | Sime 


bon 





图 9-9 创建 Pyspider Ji H 
在 这 里 只 需要 填 入 两 个 参数 ， 一 个 项 目 名 称 ， 一 个 起 始 网 址 。 在 浏览 器 中 打开 youku 的 
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主页 ， 并 转移 到 电视 剧 分 站 ， 如 图 9-10 所 示 。 























tm - o 
D Dashboard - pyspider x ) © tvyouku.com x 
€ > C [O wyoukucom m * 
YOUKU sse | = | = | m | 23 | se A 0- =m 
黄金 档 热 剧 榜 ! 
E sam 
九州 海上 | 
我 的 ! 体 
n ssec 
TV 版 我 的 ! 体育 老师 TV 版 急诊 科 医 





ERI RES CPLR B cae 


; 我 不 是 精 
"4 B emas 
ee B ss 
ves mes 
m 最 后 的 战 
mss 


新 剧 预 
























图 9-10 Youku hot TV list 


现在 起 始 网 址 已 经 有 了 Cv.youku.com) ， 项 目 名 称 可 以 填 youkuHotTvList。 填 入 刚才 新 
创建 的 项 目 中 去 。 最 终 的 目标 是 疏 当 前 热 剧 榜 单 的 排名 、 电 视 名 以 及 播放 次 数 。 将 项 目 名 和 
起 始 网 址 填 入 刚 创建 的 Pyspider 项 目 中 去 ， 如 图 9-11 所 示 。 





D) Dashboard - pyspider x (E) tw.youkucom x 
所 C |O FRE | 192.168.1.80:5000 Gri Ove BB: 


Create New Project 





Project Name youkuHotTvList 


Start URL(s) http:/tv.youku.com 





Mode Script | Slime 








图 9-11 创建 新 项 目 
单 击 Create 按钮 ， 名 字 为 youkuHotTvList 的 Pyspider EEM H CAETH. 
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9.22 ERAS 


现在 youkuHotTvList 项 目 将 进入 调试 模式 ， 在 这 个 模式 中 可 以 调整 修改 Pyspider 默认 的 代 
码 ， 并 测试 代码 效果 ， 如 图 9-12 所 示 。 


D 口 
[ yeukuHotTvList - Deb. x \ ©) tvyouku.com x 
€ Q |O 192.168.1.80:5000/debug/youkuHotTvList ari oewO 8B: 





pyspider | youkuHotTvList 项 目 名 Documentation | WebDAV Mode | 
m ora E 









"process": { 
"callback^: "on start" 


“project”: "youkuHotTvLi st", 
"taskid': "data: on start", from pyspider.libs,base handler import * 
"url": "data:, on start" 
1 
EXE class Handler BaseHandler) 
crawl_config = { 


Gevery(mimtes=24 * 60) ”起 始 网 址 
def on_start(self 
self. crawl (http: //tv. youl. com’ | 
callbackeself.index page) 





Gconf ig (age=10 * 24 * 60 * 60) 
def index page(self, response) 
for each 
response, doc(' a[href ="http"]’). items 0 
self. crawl (each. attr. href, 
callbackself. detail page) 


conf ig (priority=2) 
def detail_page(self, response) 
return 
“url”; response.url, 


"title": 
response, doc('title').text(), 
} 


EZ Eim) [Oo (messages) 


[enable css selector helper 











9-12. Pyspider 调试 模式 


此 时 页 面 被 分 为 2 个 区 ， 左 边 的 区 是 页 面 预览 区 ， 右 边 的 区 是 代码 编写 区 。 在 代码 编辑 
区 Pyspider 框架 给 出 了 最 初 的 代码 。 只 需要 继续 往 代码 中 填空 就 可 以 完成 这 个 仆 虫 了 。 

先 来 看 看 Pyspider 给 出 的 息 虫 代码 是 怎样 运作 的 ， 默 认 代码 中 只 有 一 个 类 ， 包 含有 3 个 
类 函数 都 是 装饰 函数 ) 。 在 on start 函数 中 载 入 了 在 创建 仆 虫 时 输入 的 起 始 网 址 ， 然 后 通 
过 回调 函数 调用 index_page 函数 。Index_page 函数 的 作用 是 解析 出 起 始 网 址 中 所 有 的 http 链 
接 ， 然 后 使 用 回调 函数 调用 detail page 函数 来 处 理 这 些 链接 。 而 detail page 函数 返回 解析 得 
到 的 网 址 以 及 网 址 的 标题 文本 。 

下 面 来 测试 一 下 ， 单 击 页 面 代码 编辑 区 右上 和 角 的 save 按钮 保存 代码 ， 然 后 单 击 页 面 预览 
区 右上 角 的 run 按钮 开始 运行 ， 如 图 9-13 所 示 。 
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D) youkuHotlvList - Deb. x 





S G | © 192.168.1.80:5000/debug/youkuHotTvList 

















pyspider > youkuHotTvList 





data:text/plain,on start 


图 9-13 运行 


默认 代码 运行 后 在 页 面 预览 区 的 下 方 follows 按钮 上 出 现 了 一 个 红色 的 圆 形 图 标 ， 图 标 上 
标示 的 数字 是 提示 程序 所 需要 解析 多 个 少 个 页 面 。 在 默认 的 代码 中 只 有 一 个 起 始 的 网 址 ， 所 
以 这 里 显示 的 是 1， 从 页 面 预览 区 的 上 半 部 分 可 以 看 出 ， 此 时 执行 的 是 on_start 函数 。 
llows 按钮 ， 如 图 9-14 所 示 。 


继续 进行 下 一 步 ， 单 击 页 面 预览 区 下 方 的 fo 





ED (oos) [orow® messages) 


(enable css selector helper J 


ar Oe sO 8: 
Documentation [WebDAV Mode 


2 encoding: 
# Created on 2017-12-06 13:22:01 
4 # Project” youklistTdist 4 a 


from pyspider. libs.base handler import + 











class Handler (BaseHandler) 
cravl_config = { 
1 


Gevery nirutes=24 * 60) 
def on start (self) 

5 self. crawl ( http: //tv. youku. con! , 

callback=2olf. irdox pago) 


config(agerl0 * 24 * 00 + 60) 
def index page(self, response) 
for each in 
response. doe ( alhref ="http’]’). stone) 
x self. cravl (each. attr-href, 
callback=self, detail page) 


config (priority=2) 
def detail page(self. response) 
retum [ 

“url”: response. url, 
$ “title”: 
response. doc ( title’). text 0, 
} 





默认 代码 





[3 youkuHotTvList - Deb. x 
E Q | © 192.168.1.80:5000/debug/youkuHotTvList 


pyspider > youkuHotTvList 











鼠标 单 击 此 处 进行 下 一 步 


(web) (html) (TD messages) 
[enable css selector helper | 





WEE? 


LRA e E e 
Documentation | WebDAV Mode ] 


#!/usr/bir/ env python 
# -+ encoding: utf- 
# Created on 2017- 
youkullot T 












from pyspider. libs. base handler import * 


class Handler @aceHiandler) 
cravl_config = { 
1 


Gevery(mimtes=24 * 60) 
def on start (self) 
self. crawl (http: //tv. youku. con’, 
callbask-self. index_page) 


@config (age=10 + 24 * 60 * 80) 
def index page(self, response) 
for each in 
response. doc(’ a[href"="http"]").itene 0 
self, crawl (each, attr. href, 
callback-self. detail page) 


config (priority=2) 
def detail page(self. response) 
return [ 
“url”: response.url, 


2 “title” 
response. doc( title"). text O, 
T 1 





图 9-14 显示 需 


EEE EHE 
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Python | 


在 页 面 预 览 区 中 得 到 了 需要 息 行 的 页 面 网址。 此 时 还 是 在 运行 on_start 函数 。 单 击 网 址 
后 面 的 箭头 按钮 ， 得 到 的 结果 如 图 9-15 所 示 。 


D. youkutiotTvList - Deb. x 








€ > © | © 192.168.1.80:5000/debug/youkuHotTvList 





Documentation | WebDAV Mode 


ETE. /rie yum 


3 -+ encoding: utf-8 -+ 
# Created on 2017-12-06 13:22:01 
# Project: youkulot Ivist 


pyspider > youkuHotTvList 











from pyspider.libs.base handler import * 


a class Handler (BaseHandler) 
"taskid': “50b368918365704e0: 5 erawl_canfig = { 
Furl “http://tv youku. con/” 1 


à 
Gevery(mimter24 + 60) 
detail page > "m 1 def on start (elt) 
15 ‘Self. crawl( http: //tv.vouku, con’, 
cal back colt, index pago) 





page > http/wan youku c : "config(agemln * 24 * 60 * 60) 


cL response, doc( (href 2" http"]').itens O 
page k -= self. cravl (each. attr. href, 
callbackeself. detail pare) 











Seri page &cont ig priorityez) 

def detsil_page (self. response) 
return, Í 

curl": response.url, 


detail 


` response, doc ("title") tert O, 
7 ! 





detail 





图 9-15 运行 index_page 函数 


现在 已 经 进入 了 index page 函数 ，index_page 函数 返回 了 所 有 以 http 开头 的 链接 ， 从 图 9-15 可 
以 看 出 ， 这 样 的 链接 一 共有 327 个 。 任 选 一 个 链接 ， 单 击 右 侧 的 箭头 按钮 ， 如 图 9-16 所 示 。 











D) youkuHotTulist - Deb: x 











€ © | © 192.168.1.80:5000/debug/youkuHotTvList e *xío0o€.9€oSt:: 
pyspider > youkuHotTvList Documentation [WebDAV Mode } 
EXE (een 

"fetch"; s # -+ encoding: utf-0 -* 

"process": # Created on 2017-12-06 13: 22:01 

$ “callback”: "detail pare" 4 # Project: youniotIvList 

“project ^youkuHot IvList^, from pyspider.libs.base handler import * 

“schedule pi 

“priority”: 2 


class Handler (Baseandler): 
crawl_config = { 


h 
"taskid': "80326421 722ed72cbdl032df Gbdab65" , 
g 1 


^ “http://www. youka. con" 








Govory(mimutos24 * 60) 

4 def on. start (self) 

5 Self. crawl(’http: //tv. youku. con’, 
callback-self. index page) 





Prite 


优酷 -这 世界 很 本 





Gcontie (age=10 * 24 * 60 * 60) 
def inder_page(self, response) 
for each in 
response, doc(' alhref ="http"]").itens0 
self. crawl (each. attr, href, 
callback-self. detail page) 





‘contig (priority-2) 
def detail page(self, response) 
return { 
“url”: response.url, 
“title” 
response, docftitle ).text (), 
1 














[web ) (htm! ] messages ] 


[enable css selector helper 


9-16 运行 detail page 函数 
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此 时 运行 的 是 detail page 函数 ， 该 函数 返回 的 是 网 页 链接 的 标题 文本 和 该 链接 的 网 址 。 
默认 的 爬虫 代码 运行 正常 ， 但 设计 疏 虫 的 需求 只 是 获取 起 始 网 址 中 包含 的 热 剧 榜 单 ， 不 是 默 
认 程 序 中 index_page 函数 中 写 的 包含 有 htp 字符 串 的 所 有 链接 。 而 且 设 计 的 爬虫 也 不 需要 得 
到 榜 单 中 链接 网 页 中 的 标题 。 所 以 ， 需 要 对 Pyspider 默认 的 程序 修改 一 下 。 

现在 起 始 页 面 源码 中 找到 所 需 数 据 的 位 置 。 在 浏览 器 中 打开 起 始 网 址 
http://tv.youku.com， 查 看 源 代码 并 查找 特征 字符 串 ， 如 图 9-17 所 示 。 





fst lee 
x © view-sourcetv.youku.- x 
* Q | @ view-source:tv.youku.com *| 
1267 <div class="yk-col6”> 





1268 <div nane="m_pos” id=“n_86854”>| 5,369.4 
~ @ 1269 <div clam eter? -一 一 一 一 














1270 <div classe yk-head"? 
1271 div class-"yk-title an» ARIES SÉ </span></| 
1272 <div class="yk-append”> 
1273 </div’ 
1274 <div class-"yk-extend*» 
Sai» Sess 






热 剧 榜 单 





























B sza 
n = <label class hot^»1C/1abi 
九州 海上 牧 云 记 <a href="//v, youku. co yffnow/id_XitzEyODgENjAOMAR=, html” 
- target="_blank” class="nane” -frone^1-1 53838. TV</a> 
将 军 在 上 28 
oO 我 的 | eae TVR Kspan class=" extend’ LTEM ss 
R 5 div class="iten"> 
急诊 科 医 生 <label class="hot”>2</label 
ps sac age | 1288 <a href="//v. youku. con/v_show/id_YMzE itz TONTowilé==, html” 
| 6 -smaze 5.05 target="_blank” class="nane” data-frome 2-15 AAS Ezio 
M con | 1289 
白夜 追 凶 第 一 季 605.75 span class" extend”>6, 282. 475 </span? 
as 1290 </aiv| 
Bh 我 不 是 精美 Wik 546.85 |1291 div classs"iten' 
1292 <label class-"hot^»3C/12bel 
EB ansanm 1293 <a href=" //v. youku. con/v_show/id_XMzAGNzkxNTY2Mg==. html” 





EM E target="_blank” class="nane” data-frome 3-1 Hi E E 
D 三 生 三 世 十 里 桃花 94 
span class=" extend”>3, 630. 575 </span> 








国 zsnt 254.57 | 1295 </div| 
prm 1296 <div class="iten"> 
msn» 1297 <label >4</label> 





1298 <a href=" //v. youku. con/v_show/id_XM2E IMTUMMMg==. hit al” 
- Eee: ERETT < 





9-17 页 面 源码 


确定 源 代 码 中 热 剧 榜 单 的 位 置 后 ， 对 照 源 代 码 可 以 发 现 ， 榜 单 内 所 有 电视 剧 都 包含 在 标 
签 <div class"yk-rark yk-rank-long"> 里 。 所 以 ， 怜 虫 定位 时 最 好 是 用 嵌 套 定位 的 方式 ， 先 把 这 
个 标签 过 滤 出 来 。 在 这 个 标签 内 间接 定位 所 需 的 数据 肯定 要 比 在 整个 页 面 源码 中 直接 定位 所 
需 数据 要 方便 得 多 。 

第 二 步 就 定位 所 需 数 据 的 精确 位 置 。 对 照 源 代码 发 现 ， 每 个 电视 剧 都 是 包含 在 <div 
class="item"> 标 签 里 的 ， 这 样 的 标签 在 <div class"yk-rark yk-rank-long"> 标 签 内 共有 11 个 。 与 
页 面 上 显示 的 结果 相符 。 

第 三 步 就 可 以 通过 精准 的 定位 来 过 滤 所 需 的 数据 了 。 对 默认 的 代码 稍 加 修改 即 可 。 修 改 
后 的 youkuHotTVList 项 目 代码 如 下 : 


1 #!/usr/bin/env python 
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2 # -*- encoding: utf-8 -*- 

3 # Created on 2017-12-06 13:22:01 

4 # Project: youkuHotTvList 

5 

6 from pyspider.libs.base handler import * 
7 from bs4 import BeautifulSoup 


8 

9 

10 class Handler (BaseHandler): 

11 crawl_config = { 

12 } 

13 

14 @every (minutes=24 * 60) 

15 def on_start (self): 

16 self.crawl ('http://tv.youku.com', callback=self.index_page) 

abr 

18 

19 Gconfig(age-10 * 24 * 60 * 60) 

20 def index page(self, response): 

21 # for each in response.doc('a[href^-"http"]').items(): 

22 4 self.crawl(each.attr.href, callback-self.detail page) 

23 

24 HERI pyquery 定位 过 滤 

25 Tag = response.doc('div[class = "yk-rank yk-rank-long"]') 

26 subTags = Tag('div[class = "item"]').items() 

27 for tag in subTags: 

28 fileName = tag('a') .text() 

29 href = tag('a').attr.href 

30 playNum = tag('span[class = "extend"]').text() 

31 print('$s, $s, $s' %(playNum, fileName, href)) 

32 

33 HEH bs4 过 滤 定 位 

34 4 soup - BeautifulSoup(response.text, 'lxml') 

35 4 Tag = soup.find('div', attrs={'class': 'yk-rank yk-rank-long'}) 

36 # subTags = Tag.find_all('div', attrs-('class': 'item']) 

3053: for tag in subTags: 

38 # fileName - tag.find('a').get text() 

39 Gj href = tag.find('a').get('href') 

40 # playNum = tag.find('span', attrs={'class': 
'extend']).get text() 

41 4 print('$s, $s, $s' %(playNum, fileName, href)) 

42 

43 
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44 Gconfig(priority-2) 


45 def detail page(self, response): 

46 return ( 

47 "url": response.url, 

48 "title": response.doc('title').text(), 
49 } 


GRUNGE RAS ABLE, 3x 4r se SEDE HERI EEK index page 函数 。 在 
index page 函数 中 放弃 使 用 了 回调 函数 调用 detail page (没有 必要 使 用 detail page 函数 
了 ) 。 在 页 面 中 通过 两 次 间接 定位 过 滤 出 了 所 需 的 数据 。 

在 这 个 候 虫 中 使 用 了 2 种 方法 定位 过 滤 ， 一 种 是 Pyspider 默认 使 用 的 pyquery WIE, 5j 
一 种 使 用 的 是 bs4 的 过 滤 。 两 种 方法 同样 有 效 ， 任 意 选 择 一 种 都 可 以 。 

先 看 看 pyquery 的 过 滤 效 果 ， 在 浏览 器 Pyspider 页 面 中 ， 单 击 左 侧 页 面 预览 区 的 Run f 


钮 ， 执 行 结果 如 图 9-18 所 示 。 


| ket 
D) youkuHottvtist| / © wyou x 
€ Co "ec C © tvyoukuc... 
i 


pyspider > youki 














1E 


CES 
Documentation ( WebDAV Mode ) 
| Gevery(ninutes-24 * 60) 
def on start(self) 

self. craw1( http: //tv. youku. com’, 
lbackeself.index page) 


| Gconfig(agemlO * 24 * 60 * 60) 
def index page(self, response): 
for each in 
fponse. doc(' a[hret ’="http”]"). itens () 
| self, crawl (each. attr, href, 
Aback=self. detail page) 





WB Pra:eryse (23338 
Tag = response. doc(" div[class = “yk 
yk-rank-long*]') 
subTags = Tag( div[class = 
"]').itensO 
for tag in sublags 
fileName = tag( a) .text) 
href = tag("a’). attr. bref 
playin = tag( span[class = 





print ( %s, Ws, Ws' W(playNum. 








Beauti fulScup (response. text, 
p. find( div, attre=[' class’ 
Ta tind all div’, attrs= 
for tag in subTags 


fileNane = 
|-find('a’).get_text() 





图 9-18 pyquery 过 滤 结 果 


从 图 9-18 中 可 以 看 出 pyquery 过 滤 出 的 结果 是 准确 无 误 的 。 再 换 成 bs4 的 方法 试 试 ， 在 
浏览 器 中 的 Pyspider 页 面 的 右 侧 代码 区 注释 掉 25-31 行 ， 并 取消 34-41 行 的 注释 ， 使 用 bs4 


定位 ， 如 图 9-19 所 示 。 
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1 #!fusr/bin/env python 

2 # —— encoding: utf-8 —— 

3 # Created on 2017-12-06 13:22:01 
4 4 Project: youkuHotTvList 


© from pyspider.libs.base handler import * 
7 from bs4 import BeautifulSoup 


10 class Handler (BaseHandler): 
11 crawl_config = { 
12 } 


14 Gevery(minutes-24 * 60) 
15 def on start(self): 
16 self. crawl( http: //tv.youku.com', callback-self.index page) 


19 @config (age=10 * 24 * 60 * 60) 

20 def index page(self, response): 

" for each in response. doc(' a[href -"http"]'). items () 

" self.crawl(each.attr.href, callbackeself. detail page) 





#486 RIPyquerysE fiz hE 
Tag = response. doc(' div[class = "yk-rank yk-rank-long”]’) 
subTags = Tag( div[class = “item’]’). items() 
for tag in subTags 
fileName = tag('a').text() 
href = tag(’a’). attr. href 
playNum = tag( span[class = "extend"]').text() 
print ( %s, Ws, Ws' %(playNum fileName, href) ) 





tct nost sto Gt 








Wi bs aid BE fu 
soup = BeautifulSoup(response.text, 'lxml') 
Tag = soup.find( div’, attrs-[ class’: 'yk-rank yk-rark-long']) 
subTags = Tag.find_all(’div’, attrs={'class’: 'item']) 
for tag in sublags: 
fileName = tag. find( a ). get_text 0 
href = tag. find( a’). get href' ) 
playNum = tag.find(’span’, attrs={ class’: ‘extend’ }).get_text() 
print ( %s, Ws, %s’ %(playNum, fileName, href)) 

















44 @conf ig (priority=2) 

45 def detail_page(self, response) 

46 return { 

47 “url”: response.url, 

48 “title”: response.doc( title’). text 0, 








图 9-19 H bs4 来 定位 过 滤 


刷新 页 面 后 ， 单 击 左 侧 页 面 预览 区 右上 角 的 Run 按钮 (如 果 不 刷新 页 面 就 单 击 Run 按钮 
返回 的 还 是 上 次 运行 的 结果 ) ， 结 果 如 图 9-20 所 示 。 


T] 
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DI youkuttorrvLise 


S Cc Qm 


ie 
© wou! x 


n 


Ly C | @tvyoukuc.. *r 


iR te 








(web) 


台 ， 如 图 9-21 所 示 。 


D) youluHoeTuiet - 


Aen TV 版 
juntis Exc 
Feb 

dem ! 体育 老师 TV 版 
uber 
emas 
Baia 第 一 季 
BARR TV 版 
dum Rem 
ESS aie 
最 后 的 战士 
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ponse. det dav[class = 





= ~ Tag div[class ~ 


pla 
freni" 1). tert. 





sedit 
do = BeautifulSoup (response. text, 
» 


Tar = soap. fird( div, attra l class’ 
anik yic-reuke Long") 
gal = Taf ali aiv, attese 
te 

for tag in subTags: 


href = tag.find( a). gat( href) 
playin = tag.find( span, attra 

7: erten }). get, text O 

print (Ws, e, s (playin, 

ime, hret)) 


Scent ze (prioritysz) 
def detail pags (self, response) 
return, { 
“url”: response,url. 





title’ 
Jens doet title") certo, 


图 9-20 bs4 过 滤 结果 


结果 同样 准确 无 误 。 使 用 哪 种 方法 定位 过 滤 对 PySpider 爬虫 没有 任何 影响 。 如 果 有 兴趣 
也 可 以 试 下 使 用 Xpath 和 CSS 来 定位 过 滤 。 
经 过 测试 ， 这 个 息 虫 是 可 以 正常 运行 的 。 现 在 单 击 代码 编 辑 区 右上 角 的 save 按钮 ， 保 存 
代码 。 然 后 单 击 页 面 预览 区 左上 角 的 pyspider 链接 ， 退 出 debug 模式 ， 进 入 Pyspider 的 控制 


De». x 


€ > C [O 192168.1.80:5000/debug/ycukuHorTuList 





Kid": "80b3539183:5]04e0cücb8l6ctt cens", 


pyspider } youkuHotTvList 


url", "ketp.//ty. youku con” 


(web) (html) EINER (messages 


[enable css selector helper 


退出 debug 模式 进入 控制 台 


9-21 


jusxfein/env python 


uox i 
Documentation ( WebDAV Mode ] 





— encoding: utt- 


© fræ pyspider. libe. base handler inport w 


from bs4 isport BeautifulSoup 


1 


class Handler (EaseHandier) 


callbacks: 


as 
response. doc l all 


crawl_config = { 
1 


every ninutes=24 * 60) 

def on start (self) 

self. crawl [ http://tv youbu, coy , 
.3ndex page) 


Geonfis (aer10 # 24 60 # FO) 
def index page (self, response) 
href = httpr]'). itens 

crawl (each actt.hret, 
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进入 Pyspider fill @ AWG RAP Sz S REEE youkuHotTvList。 若 需 创建 
AX ds, Pat Create 按钮 ， 继 续 照 顺序 操作 就 可 以 了 ， 如 图 9-22 所 示 。 








lee 
[ Dashboard - pyspider x 
€ Q |© 192.168.1.80:5000 ar 
lpyspider dashboard 
scheduler 0 fetcher 0 processor 0 result worker 
0+0 
Recent Active Tasks. 
group project name status rate/burst avg time Lik curd actions 
[group] ^ youkuHotrvList BIS] 13 加 四 GL wu 
Results. 











FA 9-22 Pyspider 控制 台 
至 此 ， 最 简单 的 Pyspider ME we MIN sus f o XX^* Pyspider 爬虫 虽然 可 以 运行 ， 但 
没有 保存 结果 ， 也 没有 体现 出 Pyspider 疏 虫 的 精 莫 。 起 到 的 作用 仅仅 是 熟悉 了 Pyspider JE d 
的 流程 。 





Pyspider 实战 二 : 电影 下 载 


熟悉 Pyspider 扑 虫 的 流程 后 ， 下 面 来 编写 一 个 完整 的 “纯粹 的 ”Pyspider 项 目 。 选 一 个 
简单 的 项 目 ， 在 电影 下 载 网 站 疏 取 所 有 的 欧美 影片 的 下 载 地址 。 


9.3.1 项 目 分 析 


这 次 选择 的 电影 下 载 网 站 是 http:/www.ygdy8.com。 在 浏览 器 中 打开 这 个 网 站 ， 在 网 页 
顶部 使 用 鼠标 单 击 欧美 电影 链接 ， 如 图 9-23 所 示 。 
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D SE/SERERSEI- x ([) EE /Pam RET: x) N SE /FY RET x 











© [O wwwygdy8.com/html/gndy/oumei/indexhtml 


Fa EE 
NI mm ygdy8. com 


BUB: 本 站 首页 > 电影 > 欧美 电影 > 下 雪 页 面 














Cose gp 


FEET DEE DSSE> 


© [SABE] 201795088 (BRE) BD RE 
BW: 2017-12-10 18:57:55 点 去 ; 0 
FET] [BD-mkv.720p.F SRF] [2017 FRIRE] F E AVS =H & Thelma «£F (t 2017 of 
E/S/R 8 m HEUS = 字 B CHRIS IMDES 7.4/10 from 2,152 users «EIE 


X) ESBK] 20174 88-5 CIBUS IS (BF!) EDEATES 


pellets aiu EB: 2017-12-08 10:23:10 S: 0 
iamen Dax SF! J[B0-mkv.720p. FATF] [2017F SIRE CREE] :译名 Rs GRUPO 
17 年 动作 CESS 产地 美国 :类 别 RIR/ S/R * 语 言 SE * 字 E RENFE lMDbIFD 7.1/10 from 44,619 u 
| [SABK] 2017FWBRR (ROBEREMZE) COMETS 
15 年 高 分 三室 动作 《师爷 日 期 : 2017-12-07 23:22:31 点 去 :0 
7EROWE (VSE ‘LGR 2 T [RD-RMVP. 720p. 25373] TEGUEEROIEE HORERGHII/JHE 
17 年 科幻 动作 HEND Son Of Bigfoot * 年 代 2017 s 产 地 出 利 有 时 /法国 到 SRUTE/BIS * 语 B HESE ox B oca 
20170083 CET et 
(PRATER CK O [SABE] 20145888 (KANAE) BDOHERFE 
2016F (SRR FI 2017.12.07 23:23:21 
SGRM MAB] [B0-RMVB.720p.FHERF][2014F BH IR] * 译 名 SEROMA * 片 名 Les Yeux jaune 
产地 EEEE 1MDbiT 6.4/10 from 1,048 users «EI 
20172 SSE GEE 地 这 国 SIRIA 28 言 于 再 oF E HALES :IMDb 评分 6.4/10 from 1,046 users «FII 


2017 年 动作 (UE : 1 O BABE] 2017 年 动作 雄风 (FSRRSR2) EFAS 
FM} : 2017-12-07 23:18:26 点 去 : 0 





图 9-23 项 目 起 始 页 


此 时 显示 项 目的 起 始 页 面 为 http:/www.ygdy8.com/html/gndy/oumei/index.html， 移 动 页 面 
右 侧 的 下 拉 条 ， 查 看 页 面 底部 。 将 鼠标 移动 到 末 页 链接 上 ， 页 面 左 下 角 将 显示 该 链接 的 链接 
地 址 ， 如 图 9-24 所 示 。 


D mE meme mET x 
C |@ wwwygdy&.com/htm/gndy/oumei/indexntml 








ew LS OF 





T "IFUUFE 3:37 10 MOM 315 Users SOFE HU 


O WBN] 2017 3)/FEIS (EMSL? : Bei) HOTANTS 
EJ: 2017-11-27 21:08:15 B=) 0 
XUREIZ.ReR]HD-RMVB.720p.3:7059][2017:E20 tw] © 
B: Mer a(a)/Eesl2: RAMU /TRRL Rem ek = 
X) semi] 2017 BENI GWRES) HOT ARSE 
EI: 2017-11-27 20:50:01 =) 0 
RE R/GIRTLHD-RMVO. 720p. PATH ][2017 SSM) * 泽 名 REEE * 片 Crooked Hou 
B BIS/CS/BE «S E mS FB PASS e HAE 2017-12-22(&81) *IMDbi 分 7.3/10 
O esum] 2017-34)0ftr (SMR) HOERA 
BIN: 2017-11-26 17:57:18 
d355UB]UD-RHVa. 720p. 8825325 (VOLTA) * 译 Z SMB) A ERIS OR)/ SAHE 
片 名 Geostorm * 年 代 2017 * 产 地 美国 :类 EL 动作 /科幻 /六 办 «B E E * 字 BPFH HIM 
© BAUR] 201753) 006 (AA) SORAN 
BR: 2017-11-25 23:15:24 & 0 
7E. ][BD-RMVB.720p.«PEXXT][2017 FFE] +F 会 XH, 2H E Mayhom * 年 代 2017 è 
E SE +F B PANIE IMDb 6.5/10 from 2,189 users ESTA 6.4/10 from 1,086 us 
© [same] 20175-8084 (EET) BORAT 
BER: 2017-11-25 23:13:52 2%: 0 


JE |[OD-mlv 720p SBF [2017] «SEES IRENE EVIS oj E 
* 关 到 ER oi E Ais oF S SASS :1MDb 评 分 6.4/10 from 12,887 users “BARTS 5.3/1 
$t1797)4443&:28 首页 [2] [3] [4] [5] [6] [7] FD 





b- BETE - FER - mat 


Copyright © 2016 www.vady8.com. all Rights Reserved 








924 WAAR 


单 击 末 页 链接 ， 进 入 末 页 页 面 。 在 页 面 底部 将 鼠标 分 别 移动 到 各 个 链接 上 ， 以 分 析 链 接 
地 址 规则 ， 如 图 9-25 所 示 。 
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D Be /Fi RET. x 
© [O www.ygdy8.com/ntml/andy/oumei/is: 











| 178.html *QGe9-208 








UU VZISZ VOUS uU = 
© [SEE] 1024999 (FERN : XE) BDPENF 
BE : 2009-10-05 00:03:03 S% : 48781 


EE EN : KE +F & Resident Evil Extinction * 年 代 2007 ol R 美国 类别 SNe 
ERF INDIES 6.4/10 (15,401 votes) XEHE? BD-RMVB sXRATRT 1024 x 428 ES 


O [BABE] 1024579* (8215) BOHARF 
日 期 2009-10-05 00:00:27 S : 11175 
SEG R21 see LI RISERHEYN AE L— 8/8218 oH € 21 < 年 代 2000 * 国 家 半 
FERF slMDB 环 分 7.0/10 (18,409 votes) se ED-RMVB ART 1024 x 428 exit 
O [BABE] 1024F (RESMR) BOTERF 
E : 2009-10-04 00:21:09 Æ$ : 15838 
28 RWTE/RRODA +H Z aee Movie * 年 代 2007 E F SE os 到 S)R/BR/E SUR 
FIF RHEN BD-RMVB AWARI 1024 x 576 sIMDB 评 分 6.5/10 (9,555 votes) +H #91 r 
O [BARR] 102490F (SRE ETAT 
日 期 : 2009-10-04 00:16:14 a : 18045 
SEOEORESRN SR 名 Hitch :年代 2005 (E R SEE he 到 BR/SIB IE E EE * 字 R ARTS 
1 votes) :文件 你 BD-RMVB ALAR 1024 x 424 sHKG $59 X 50MB * 片 长 1:58:16 +9 
O SNEK CORNEA HERA NX) RIFF 
BW : 2009-10-04 00:00:19 S% : 6 


SE 各 DTI FB/RDR/ TB UAD 1) HORIS (B) /R82718123 sH 名 The Taking O| 
XORSUZS 5 到 WH/ Balt 0 E EE oF B EF IMDB 6.38/10 9,943 votes oe 


21780/444382 EN HM [175] [176] [17] 178 322 [ 178 *] 














re ini | 
图 9-25 分 析 链 接地 址 


单 击 首页 链接 ， 与 开始 的 页 面 http://www.ygdy8.com/html/gndy/oumei/index.html 对 比 一 
下 ， 两 者 完全 相同 ， 因 此 可 以 得 出 结论 : KPT A i RW I ER 
http://www.ygdy8.com/html/gndy/oumei/list 7 _， 加 上 [1.html, 178.html]. 

在 这 些 链 接 中 需要 得 到 两 个 数据 ， 一 个 是 电影 的 名 字 ， 一 个 是 电影 的 链接 。 以 最 后 一 页 
的 最 后 一 个 电影 为 例 ， 将 鼠标 移动 到 最 后 一 个 电影 的 链接 上 ， 如 图 9-26 所 示 。 








D /eS SET. x 
C [O wwwygdy&.com/ntml/gnay/oumel/is: 7 17ahiml 女 | 外 四 到 口 图 








VE PRET TUDE PECO ER E 9 T 








O [SAGE] 1024 分 辩 率 《生化 危机 3 : KL) EERE 

日 期 ; 2009-10-05 00:03:03 Ack ; 48781 
ei 各 GIRL : RE 2A E Resident Evil Extinction zik & 2007 国家 美国 :类 BY Irene, 
ERF SIMDB;ES3 6.4/10 (15,491 votes) eX itx BD-RMVB sHELRT 1024 x 428 ex. 


V [ABE] 1024F (4212) BD 中 区 到 字 
日 期 :2009-10-05 00:00:27 点 去 : 11175 


BOE REIL S/R PRIMO RES / ABI SH Z 21 * 年 代 2008 EAE 
FARF :IMDB 评 分 7.0/10 (18,409 votos) =H ED-RMVE :视频 尺寸 1024 x 428 文件 大 


© [BARE] 1024 分 兰 李 (SEENE) BD 中 至 双 字 
BM : 2009-10-04 00:21:09 a: 19835 
28 各 SHSR/RECUS E De Movie * 年 代 2007 1E F AE c A TERRIERS 
ENF RIPET BD-RMVB AART 1024 x 576 sIMDB 评 分 6.5/10 (9,555 votes) 2# & 91 r 
O [Sate] 1024788 (ERB BOPENF 
EM : 2009-10-04 00:16:14 Æ : 19045 
38 OE SRM 。 片 E Hitch * 年 代 2005 188 R 美国 * 关 到 SRUSHS :再 言 A * 字 幕 E 
1 votes) XEHEZ BD-RMVB :视频 尺寸 1024 x 424 = 文件 大 儿 59 x 50MB +} {£ 1:56:16 * 导 
O resa] comers (mica mane EE) Roos 
HI : 2009-10-04 00:00:19 S£ : 65295 
28 E Seaman TORIR CSGA e) sre GE RS 123 eit Z The Taking O| 
S SESS +2 S ARESA s BE oF B FF IMDB 6.83/10 9,943 votes :文件 | 
31785/444352 BL 上 一 页 [175] [176] [177] 178 #31 [178 v] 








-Rss2.0 





Copyriaht © 2016 www.yady8.com. all Rights Reserved . 
yod. com/htmi/gndy/dyzz/2009 1004/22029 htmi sms; » 
926 ARB 
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项 目的 基本 流程 就 是 这 样 了 ， 首 先 分 析 这 178 个 页 面 ， 获 取 电 影 名 字 和 电影 链接 ， 然 后 
到 链接 页 面 获取 电影 的 具体 信息 ， 比 如 放映 时 间 、 电 影 主演 、 下 载 地 址 等 。 


9.32 JEn 


在 浏览 器 中 打开 Pyspider 的 webui (Pyspider 控制 台 ) ， 单 击 Create 按钮 创建 新 项 目 。 
项 目 名 为 oumeiMovie， 起 始 地 址 可 以 为 空 。 单 击 Create 按钮 进入 调试 界面 。 

与 上 一 个 项 目 youkuHotTvList 不 同 ， 这 个 项 目 需要 疏 去 的 页 面 比较 多 ， 目 前 是 178 页 。 
在 函数 on start 回调 index page 函数 之 前 ， 必 须 先 把 所 有 需要 扑 的 页 面 统计 出 来 ， 因 此 在 
Handler 类 中 添加 一 个 构造 函数 ， 用 来 统计 有 息 取 的 页 面 ， 再 到 on start 函数 中 ， 循 环 回 调 
index page 函数 处 理 这 些 页 面 ， 如 图 9-27 所 示 。 


DD oumeiMoive - Debugc x 


€ > © |O 192.168.1.80:5000/debug/oumeiMoive Wo 


pyspider > oumeiMoive Documentation | WebDAV Mode } 
t run 

TU Ez 

1 


callback" "am start" 








Iproject^: "oumeioive", 
^taskid : “data on start", from pyspider.libs.base handler import * 
E iK am start" 
1 
ENE er 
crawl config = | 
1 





t 
def init (self) 
‘selt-urls = 
page in range(l, 178 + 1) 
url = 
"http: / /vwe. yedy8. con/htal/ mdy/oumei/list_7_’ + str(page) + 
"hal 
self. urls. append(ur1) 


Gevery (ninutes=24 * 60) 
def on start (self) 
fors 


self.urls: 
self. crawl (url, callbackeself.index page) 











Qconfig (age-10 * 24 * 60 * 60) 
def indexpage(self. response) 
for each in 
response. doc( alhref 7" http-]').iteasQ) 
a zelf. crawl (each. attr. href, 
callbackeself.detail page) 





i 一 一 一 |z contig priorita 

(htm! ) (follows) [messages def detail page (self, response) 
return 

“url”: respanse.url, 





(enable css selector helper | 





图 9-27 Site A 


单 击 页 面 右 侧 代 码 编辑 区 右上 角 的 save 按钮 后 ， 单 击 页 面 左 侧 预览 区 右上 角 的 Run 1 
钮 ， 执 行 结果 如 图 9-28 所 示 。 
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ython f 


D) eumeiMoive - Debugc x 





€ G | © 192.168.1.80:5000/debug/cumeiMoive Wo 


pyspider > oumeiMoive Documentation { WebDAV Mode 


[ WES i eo miamba mte ime © 
“process”: { 7 
"Eie": "on stare” 
h class Handler BaseHandler) 
“project”: "oumeiMoive", crawl config = { 
“taskid": “date ,on start", 1 
"url; “data:, m start^ 


ü 3 def imt (self) 
selfvurls = U 
index page > 日 w - for page in range(, 178 + 1) 
es 


tl = 
U http://www. yeay®. can/htal/ gndy/omei/1ist_7.” + 
“fetch: th, str(page) + htal 

proces 1 


I 
callback”: "index page" 
1 Gevery(nimtes=24 * 60) 
“project”: "oueillive', def on start (self) 
“schedule”: { for url in selfurls 
ace 





‘self, urls. append(url) 


i callback=self. index _page) 
"askid": *90890c68da575203a35214 lade 3f a306". 
url”: "http heme. vetri con ene mes Vist 24 @conf ig (age=10 * 24 * 60 * 60) 
def index pago(zelf, responso) 
for each in 
response, doc( a href "~"http”]').itens 0 
self crawl (cach, attr, bref, 
eallback-solf detail page) 





dex page > Fttp/www.ygdy&. cont ig priority% 
ee det detail page(selt, response) 

return, { 
Suri": respanse.url, 


[SU MP | messages response. doc( title').text(), 
1 


enable css selector helper 


图 9-28 RAF 


显示 有 178 页 ， 与 设计 结果 相符 。url 显示 也 是 正常 的 。 继 续 下 一 步 ， 修 改 index page PA 
数 。 在 这 个 函数 中 获取 电影 名 称 和 电影 下 载 的 页 面 ， 然 后 通过 电影 下 载 页 面 链 接 回调 
detail page. 函数 获取 最 终 的 数据 。 打 开 页 面 源码 ， 找 到 离 有 效 数 据 最 近 的 标签 。 这 里 离 有 效 
数据 最 近 ， 也 最 容易 识别 的 是 Table 标签 ， 如 图 9-29 所 示 。 





dex_page > http 

















D) oumeiMoive - Debug: X y [} vew-sourcewwwygd X 


C |O view-sourcewww.ygdy8.com/html/andy/oumei/index html * 


237| </div> «| 

238| <div classs"co erea? > [<table width="10056" a vx 

239 <div class"title_all’>dil><fant color«t008800» a href=" http: // wwe yeupor con eae ng ee 
href=" /btm /gndy/ index. html’ > 电影 cf/ ay><a href=" /htal/gndy/oumei/inder. html’ ^88 B C2» (fort; </h1></div> 

240 <div clace="co_content3”> 

241 | ful: 




















243| td height="220" valig="top" >} MESIE |border="0" cel lspacing="0" 
style=" margin-top: 6p ^» 
244 | try 

245 | Ktd height="1" colspam"2" backgrounds" /tenplets/ ing/dot, hor. gif” ></td> 
246 | k/ex> 


cellpadding="0" class="tbspan” 











^ height*26" alige=“center’><ing sr="/templets/ing/item gif” width=" 18" height="17"></td> 一 
"> 








250 | <b> 
251 <a classsulink href=’ /ktal/mdy/jddy/ inder. htal' > (BBS!) </ > = 
252 <a href=" /ntal/ gndy/ jdéy/ 2017121/557T1.htal' class=" ulink 2201 HEB] «BTS» BD 中 英 双 字 暮 Ya》 | — 
253|| </> 

254 k/tb 

255 | K/tr> 

256 | Ktr> 


257 | Ktd height="20" style="padding-left: 3px">tmbsp; </td> 
258 Ktd style="padding-Leit :3pe"> 

259 <font color="#eF8C89" EMA: 2017-12-10 18:67:55 
260 Bii: 0 </font> 





262 ha 

263| k/tr> 

264 Kt 

265 Ktd colspan="2" style="padding lett: 3px > RI] [D-akv. 720p. 中 英 双 字 ] (217 FAA] OF 名 
Thelma Ofr 代 2017 GF 地 挪 成 /法 国 /丹麦 / 瑞 奥 OF 别 剧情 /奇幻 /惊悚 /同性 OF E WNE OF 
回 DIDb 评 分 7. 4/10 fron 2,152 users OBIT 6.8/10 from 377 users O</td> 

266) E/tx 

267 </tableT widebe"IDOW border="0" collspacin="O" cellpadding="0" clase tbspam style= "margin-top: 6p ^ 

260| ce 

269 | <td heighte"l" colspar"2" background" /templets/ing/dot. her. gif” </t@ 

270| ke 

27 ap -| 


929 页 面 源码 中 定位 有 效 数 据 标签 





2 
e 
于 
te 
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查找 显示 有 25 个 相 





index_page 函数 ， 如 图 9-30 所 示 。 


在 index_page 函数 中 并 没有 使 用 pyquery 定位 过 滤 ， 而 是 使 用 的 bs4 定位 过 滤 。 这 是 因 


同 的 标签 ， 这 与 页 面 显示 是 相符 合 的 。 根 据 查 找 得 到 的 标签 ， 修 改 





为 所 需 数据 movieName 存在 于 <a> 标 签 内 ， 而 在 <a> 标 签 附近 有 一 个 与 它 属 性 完全 相同 的 <a> 
标签 。 如 果 使 用 pyquery 来 定位 ， 要 么 用 next 方法 来 分 辩 ， 要 么 添加 条 件 判 断 来 分 辨 ， 不 如 
bs4 方便 。 现 在 来 测试 一 下 结果 ， 单 击 Run 按钮 ， 选 择 页 面 预览 栏 下 面 任意 一 个 链接 ， 单 击 
右 侧 的 三 角 运 行 按钮 ， 如 图 9-31 所 示 。 


相符 的 。 扑 忠 程序 的 下 一 步 是 使 用 回 


址 。 















D) oumeiMoive - Debuge x ( [} view-sourcewwwygd) X 


€ C | © 192.168.1.80:5000/debug/oumeiMoive Bx 


pyspider > oumeiMoive Documentation | WebDAV Mode | 


| run | self. urls. append(url) 
“process”: { 
“callback”: "on start" Severy(minutes-24 * 60) 

: def on start (self) 

"project": “oumeilloive”, for url in self.urls: 
"taskid': “data: „on start", 4 self. crawl (url, 
“url”: “data:,on_start” callbackeself.index page) 

i ENES 





config (age=10 * 24 * 60 * 60) 
def index page(self, response) 
soup = BesutifulSoup(response. text, 
^aa) 








Tags = sowp.find all('tsble', attrs= 
['width':' 100^, "border’:’0", "cellspacing’:’0", 
“class’:’tbspan’, " style’ ;’ margin-top: 6px’) ) 
for tag in Tags: 
novieNane = tag. find all(’a’) 







I1. get, text 0 

movielref = tag. find all('a') 
[71]. get href" ) 

url = "http: //vw.ytdyS. con’ + 
novieliret 








4 self. crawl (url, 
callbackeself.detail page, save={’ novieNane’ 
novieNane}) 





















contis (prioritye2) 







def detail page(self, response) 
return 
4 “url”: response. url, 
TLLA Ss _ 4 “title” 
E (htm!) (follows) (messages response. doc("title").text(), 
1 





(enable css selector helper | 





图 9-30 ”修改 index page 函数 





从 中 可 以 看 出 ，index_page 函数 解析 出 了 25 个 结果 。 这 与 页 面 源码 中 搜索 得 到 的 结果 是 
调 detail page 函数 ， 用 于 处 理 得 到 的 下 载 页 面 链接 地 
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D) oumeiMoive - Debug x \\ [] view-sourcewwwyg x — 
€ Q | © 192.168.1.80:5000/debug/oumeiMoive 


pyspider > oumeiMoive 
scnequre = 
Tae. 054000 


k ^ 
mE. "90890c684257520322521 41 ade3£230e" , 2 Gevery(nimtes=24 * 60) 
22 def on start(self) 


spi fers yel cuta femi ist T 23 for url in self.urls: 
24 self. crawl (url, 
calback=self. index page) 
etail page > http-/Awwwygdy8.com.. = 25 
detail page > http://www ygdy8 co me Woxfippe-i0 3 3 * 005 80) 
{ 2 def index page(self, response) 
“teta, L j soup = BesutifulSoup(response, text, 
1 iar’) 
“movieliane": “20172 CRM (ERS mhas d Tags = soup. find all(table", attrse 
} 'vidth';" 00 , "border: 0, “cellspacing’:’0" 











self. urls. append url) 











IN " class; tbspan', ‘style’ :’ nargin-top:6px']) 
"process": { J for tag in Tags: 

“callback”; "detail page" y movieNane = tag.find all('a') 
] I1]. eet. text 0 
"project": "oumeilloive", E novieHref = tag. find all 3") 
“schedule”: [ (1). get (href) 

"priority": 2 | url = "http://www, yedy8.con’ + 
1 movieHref 


asks" t - self. crawl (url, 
"url: "http://www. yedy8. con bald stir mad callbackeself. detail page, save-[ novieliane" 
1 | movieltanel) 


detail page > http//wwwygdyBcom.. ~ 2 
z = 3 conf ig (prioritye2) 
detail page > http.//wwwygdy& com... ~ that dta L pepe GOLS Tapai 
detail page > http//wwwygdy&com.. == » teen 1 
1 Aer ,Tespanse, url, 


B caos dct citta itat: 
1 

















图 9-31 获取 页 面 下 载 页 


注意 ， 这 个 回调 函数 self.crawl(url, callback=self.detail_page, save={*movieName’: 
movieName}) 与 Pyspider 默认 的 回调 函数 略 有 不 同 ， 这 里 多 出 了 一 个 save 的 字典 参数 。 这 个 
参数 很 重要 ， 有 时 候 index page 函数 需要 将 一 些 参数 传递 给 detail page 函数 〔 在 这 个 候 虫 中 
也 可 以 不 要 ， 因 为 在 下 一 步 detail_page 函数 中 也 可 以 解析 得 到 movieName， 这 里 只 是 做 演 
AS) 。 但 两 个 函数 都 是 回调 函数 ， 是 无 法 直接 传递 参数 的 。 使 用 全 局 变量 传递 参数 也 不 行 ， 
因为 Pyspider 采用 的 是 广度 优先 算法 (深度 优先 算法 倒是 可 以 用 全 局 变量 传 参 ) ， 全 局 变量 
只 能 传递 最 后 一 个 页 面 的 参数 。 因 此 这 里 不 得 不 借助 其 他 的 参数 来 传递 值 。 再 来 仔细 看 一 下 
回调 的 函数 detail page， 它 定义 的 是 def detail page(self，response)， 只 带 有 一 个 参数 
response 。 这 就 意味 着 如 果 index page 函数 需要 传 参 给 detail page 函数 ， 就 只 能 借助 response 
这 个 参数 来 传递 了 。response 这 个 参数 是 怎么 样 的 呢 ? 它 来 自 于 Pyspider 的 安装 目录 下 的 
lib/response.py， 上 有 具体 到 本 例 就 是 /usr/local/lib/Python 2.7/dis-packages/pyspider-0.3.10_dev- 
py2.7.egg/pyspider/libs/response.py。 到 该 目录 下 执行 命令 : 


执行 结果 如 图 9-32 所 示 。 
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iP king@debians: ~ 一 口 





class Response (object): 














seInsensitiveDict(), 


def init (self, status code-None, url-None, orig url-None, headers-Ca 











content="', cookies-None, error-None, traceback-None, 











None, js script result-None, time-0): 
if cookies is None: 

cookies = {} 
self.status_code = status_code 
29 self.url = url 

self.orig_url = orig_url 

31 self.headers = headers 
32 self.content = content 
33 self.cookies = cookies 
34 self.error = error 
5 self.traceback = traceback 
E self.save = save 
self.js script result = js script result 
self.time = time 

















def repr (self): 
af return u'<Response [td]»' $ self.status code 





图 9-32 ”使 用 save 参数 传 值 





这 里 save 定义 的 是 None， 其 实 可 以 将 save 定义 为 任何 类 型 。 也 许 会 有 多 个 值 需要 传 


递 ， 还 是 将 save 定义 为 字典 更 方便 。 


回 到 疏 虫 程序 ， 继 续 下 一 步 。 利 用 save 传递 参数 ， 修 改 detail page 函数 ， 获 取 最 终 需 要 


的 数据 。 任 意 挑选 一 个 电影 下 载 页 面 的 链接 在 浏览 器 中 打开 ， 如 图 9-33 所 示 。 
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图 9-33 ”电影 下 载 页 面 
查看 该 页 面 的 源 代码 ， 找 到 这 些 有 效 数据 的 位 置 ， 如 图 9-34 所 示 。 
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图 9-34 源码 中 有 效 数据 


电影 下 载 链接 的 定位 和 过 滤 不 难 ， 不 管 是 用 bs4 还 是 pyquery 都 很 简单 ， 但 电影 信息 就 有 点 
麻烦 了 。 因 为 源 代 码 中 电影 信息 内 使 用 了 大 量 的 <br 户 标 签 。 众 所 周知 ，<br 户 标 签 是 由 
<br>…</br> 标 签 组 “进化 ”而 来 的 ， 但 bs4 和 pyquery 都 只 能 从 闭合 的 标签 组 中 过 滤 出 有 效 数据 

《至 少 目前 是 如 此 ) 。 所 以 在 这 里 要 过 滤 出 电影 的 信息 ， 就 要 先 把 <br 这 标签 过 滤 出 去 ， 然 后 在 剩 
下 的 数据 中 使 用 re 模块 来 过 滤 有 效 信息 。 因 此 ， 修 改 了 朴 虫 中 函数 detail page， 如 图 9-35 所 示 。 
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def detail page(self, response) 
movisse ~ response. seve. 
tal = re.sib( br /? [1.5] 
datsstr = re. search(u" ©. 


if ro, search(key, zt) 
at Dic key] = resu key, Us 


break 
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(enable css selector helper )™ 

















49-35 ”过滤 电 影 有 效 信息 
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Fe PPG MG TE A DU NS i EDX 7 E fO Save TEILE ACES, PER d vd rh 7 DU LT 
预览 区 右上 角 的 Run 按钮 ， 在 左 侧 页 面 预览 区 下 部 过 滤 得 出 最 终 所 需 的 有 效 数 据 。 


9.3.8 TERET AR 


Hifgxx T mE Lanse ey, TANTS F Ahk AEA pyspider 链接 ， 
或 者 在 地 址 栏 中 输入 Pypider JE IP:5000, HEA Pyspider 主 界面 〈 控 制 台 ) 。 

fj^ d NAI 7 列 ， 分 别 为 Group、Project Name, Status, rate/burst, avg time, 
Progress, Actions. 


Group: 组 名 是 可 以 修改 的 ， 直 接 在 组 名 上 单 击 进行 修改 。 如 果 需 要 对 爬虫 进行 标 
记 ， 可 以 通过 修改 组 名 来 完成 。 








pe =] 组 名 改 为 delete 后 如 果 状态 为 stop RAS, 24 小 时 后 项 目 会 被 系统 删除 。 | 











Project Name: 项 目 名 只 能 在 开始 创建 时 确定 ， 不 可 修改 。 

Status: 显示 的 是 当前 项 目的 运行 状态 。 每 个 项 目的 运行 状态 都 是 单独 设置 的 。 直 接 
在 每 个 项 目的 运行 状态 上 单 击 进行 修改 。 运 行 分 为 五 个 状态 : TODO. STOP. 
CHECKING, DEBUG, RUNNING, 

各 状态 说 明 : TODO 是 新 建 项 目 后 的 默认 状态 ， 不 会 运行 项 目 ; STOP 状态 是 停止 
状态 ， 也 不 会 运行 ; CHECKING 是 修改 项 目 代码 后 自动 变 的 状态 ; DEBUG 是 调试 
模式 ， 遇 到 错误 信息 会 停止 继续 运行 ; RUNNING 是 运行 状态 ， 遇 到 错误 会 自动 尝 
试 ， 如 果 还 是 错误 会 跳 过 错误 的 任务 继续 运行 。 

Rate/Burst: 这 一 列 是 速度 控制 。Rate HANK RGA, Burst 是 并 发 数 。 默 认 
情况 下 是 1/3， 意 思 是 每 秒 3 个 并 发 ， 每 个 并 发 展 一 个 页 面 。 这 一 项 是 可 以 调整 
的 ， 如 果 被 爬 的 网 站 没 做 什么 限制 ， 可 以 把 这 个 数 稍微 调 高 一 点 。 

Avg Time: 平均 运行 时 间 。 

Progress: 爬虫 进展 统计 。 一 个 简单 的 运行 状态 统计 。5m 是 五 分 钟 内 任务 执行 情 
况 ，1h 是 一 小 时 内 运行 任务 统计 ，1d 是 一 天 内 运行 统计 ，all 是 所 有 的 任务 统计 。 
Actions: 这 一 列 包 含 了 3 个 按钮 ， 即 Run. Active Tasks. Results. run 按钮 是 项 目 
初次 运行 需要 点 的 按钮 ， 这 个 功能 会 运行 项 目的 on stat 方法 来 生成 入 口 任务 。 
Active Tasks 按钮 显示 最 新 任务 列表 ， 方 便 查看 状态 ， 查 看 错误 。Results 按钮 查看 
FAA RIS 


H afe AAA seme, PTA ARAN TODO, dt TODO 状态 ， 在 弹出 的 菜单 中 将 
状态 修改 为 DEBUG (也 可 以 选择 RUNNING) ， 如 图 9-36 所 示 。 
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Results 
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Results 


图 9-36 修改 项 目 运行 状态 
默认 的 速度 是 每 秒 3 次 ， 这 个 速度 太 慢 了 。 单 击 项 目的 Rate/Burst 列 ， 修 改 并 发 数 和 怜 


取 页 面 的 速度 ， 暂 时 修改 为 410， 如 图 9-37 所 示 。 


[p 2017S ROI x) [9 Dachboard - pyspider x 
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fece eR E. 
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9-37 ”爬虫 速度 控制 


设置 完毕 后 ， 单 击 项 目 右 侧 的 Run 按钮 ， 开 始 运 行 候 虫 。 稍 等 几 分 钟 后 就 会 有 结果 出 现 


了 。 单 击 项 目 右 侧 的 Results 按钮 ， 如 图 9-38 所 示 。 
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图 9-38 ERAR 


在 页 面 右上 角 选 择 保存 的 格式 ， 可 以 保存 为 json、txt、csv 三 种 格式 (基本 上 是 够 用 
的 ) 。 回 到 Pyspider 控制 台 ， 单 击 项 目 右 侧 的 Active Tasks 按钮 ， 如 图 9-39 所 示 。 


D 2orzseEMOUU (E x [DD Dashboard - pyspider x ) [Y Tasks - pyspider 
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ago 113.9+0.28ms +0 
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26.3+8.50ms +0 
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215.9447 47ms +25 


ETE oume Move > fi /8.com/htmVandy/oumei/list_7_17 html 5 minutes ago 
163 7«45 91ms +25 


oumeiMovie > http://www ygdy8.com/html/gndy/dyzz/20001217/23523 html 6 minutes 


ago 115.6+0.31ms «0 


oumeiMowie > http://www yady8.com/html/andy/iddy/20091222/23609 html § minutes ago 


160.7+17.43ms +0 


oumeiMovie > hltp://www.ygdy8.com/html/gndy/dyzz/20091223/23626 html 5 minutes ago 


163.949 92ms +0 


eran cumeiMovie > http://www ygdy8.com/html/gndy/dyzz/20091220/23585 html 6 minutes 
t 

















o 113.6+1.13ms +0 








oumeiMovie > http www ygdy8 com/htmVandy/iddy/20091220/23582 html 5 minutes ago 


156.5+18.14ms +0 


ESSE oumeiMovie > http//www ygdy8.com/html/gndy/iddy/20091217/23522 html 5 minutes ago 


163.1+40.94ms +0 


oumeiMovie > http://www yady8. com/htmliandy/iddy/20091223/23627 html 5 minutes ago 


165 .9+8 75ms +0 
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显示 有 2 次 错误 。 单 击 错误 链接 查看 错误 原因 ， 一 般 都 是 因为 bs4 按照 过 滤 条 件 没有 获 
取 到 合适 的 结果 造成 的 ， 按 照 提 示 修 改 让 虫 代码 。 最 终 修改 后 的 爬虫 代码 如 下 : 


1 #!/usr/bin/env python 
2 # -*- encoding: utf-8 -*- 
# Created on 2017-12-15 14:03:00 
# Project: oumeiMovie 


from bs4 import BeautifulSoup 
import re 


3 
4 
5 
6 from pyspider.libs.base_handler import * 
7 
8 
9 import codecs 


10 
ii 
12 class Handler (BaseHandler): 
13 crawl config = ( 
14 } 
I5 
16 def init (self): 
17. self.urls = [] 
18 for page in range(1, 178 + 1): 
19 url = 'http://www.ygdy8.com/html/gndy/oumei/list_7_' + 
str (page) + '.html' 
20 self.urls.append (url) 
21 
22 @every (minutes=24 * 60) 
23 def on_start (self): 
24 for url in self.urls: 
25 self.crawl (url, callback-self.index page) 
26 
27 @config(age=10 * 24 * 60 * 60) 
28 def index page(self, response): 
29 soup - BeautifulSoup(response.text, 'lxml') 
30 Dry 
chil Tags = soup.find_all('table', attrs={'width':'100%', 
"border':'0', 'cellspacing':'0', 'class':'tbspan', ‘style ':'margin- 
top:6px']) 
32 except Exception as e: 
33 pass 
34 for tag in Tags: 
35 try: 
36 movieName = tag.find all('a')[-1].get text() 
Ev movieHref = tag.find all('a')[-1].get('href') 
38 url = 'http://www.ygdy8.com' + movieHref 
39 except Exception as e: 
40 pass 
41 self.crawl (url, callback=self.detail page, save={'movieName': 
movieName } ) 
42 
43 
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44 Gconfig(priority-2) 


45 def detail page(self, response): 

46 movieName = response.save.get ('movieName') 

47 html = re.sub('«br />{1,5}', '', response.text) 

48 try: 

49 dataStr = re.search(u'O.*«', html).group() 

50 except Exception as e: 

5T pass 

52 soup = BeautifulSoup(response.text, 'lxml') 

53 try: 

54 hrefTag = soup.find('td', attrs={'style':'WORD-WRAP: break- 
word', 'bgcolor': '4fdfddf']) 

55 href = hrefTag.find('a').get('href') 

56 except Exception as e: 

57 pass 

58 dataList = dataStr.split(u'O') 

59 dataDic = (u'PEA':'', wHAn Y , wR uP ee ttu 

60 u' 语 言 ':'' ，u' 字 幕 ':'' ，u'IMDb 评分 ，:'' , ut REA 
1 ，u' 文 件 格式 ':'' , u'downUrl 1: href,\ 

61 UPR "| ul CHA , ules! | ul A, 


u' 主 演 ':'， ，u' 简 


ft ':'', u'movieName' :movieName} 


62 for key in dataDic.keys(): 

63 for st in dataList: 

64 if re.search(key, st): 

65 dataDic[key] = re.sub(key, '', st) 
66 break 

67 return dataDic 








da 在 中 文字 符 前 加 上 u， 意 思 是 指 字符 编码 为 unicode。 | 








解决 方法 起 始 很 简单 ， 只 要 在 bs4 搜索 结果 时 加 上 except 就 可 以 了 。 好 了 ， 现 在 已 经 将 
疏 虫 代码 修改 完毕 ， 保 存 后 回 到 Pyspider 控制 台 。 单 击 oumeiMovie 项 目 中 的 Run 按钮 ， 观 
察 Active Tasks 的 结果 ， 却 发 现 Pyspider 疏 虫 昌 然 从 入 口 启 动 ， 但 并 没有 真正 地 开始 作业 。 
这 是 因为 Pyspider 扑 虫 除了 第 一 次 运行 时 是 用 单 击 Run 按钮 启动 的 ， 之 后 怜 虫 的 运行 是 由 代 
码 中 的 scheduler〈 调 度 器 ) 控制 的 ， 如 图 9-40 所 示 。 
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D) eumeiMovie - Debug: x 





























€ > C [O 192:168.105000/debug/oumeiMovie CEJ 
pyspider > oumeiMovie Documentation | WebDAV Mode | 
{ 
mt "BE Ez 
"callback": "on start" A def on start celf) 
n 5 for url in self. urls: 
“project”: "oumeilovie", self. crawl (url, 
S "data: .on start" 7 callback=self. index page) 
puis 2 
} me Gconfig(age=10 * 24 * 60 * 60) 


def index page (self, response) 
soup = BeautifulSow (response. text, "lxnl') 
try: 
Tags = soup. find all(table', attrs- 
{width :' 1008", “border’:’0", "cellspacing :' O, 
'class':'tbspan', ‘style’ :' margin top: 6px’ }) 
except Exception as e: 


pass 
for tag in Tags: 
try 


novielNane = tag. find_all(’ a’) 


Eil.get_text() 

novieHref = tag. find all( 2) 
(1). get C href’) 

url = "http: //ww. yedy8. con’ + 
novicliret 


except Exception as e 
ass 
self. crawl (url, 
callback=self. detail_page, save= [ novielianc’ : movieNane) ) 




















@config (priority=2) 
def detail_page(self, response) 
4 movielome = response, s: ntn novieNane’ ) 
(html] [follows] [messages] — « Heal = re. sibt cbr / [18] 
[enable css selector helper}  ,, "Paster 


图 9-40 Pyspider scheduler 


从 图 9-40 中 可 以 看 到 ， 在 Pyspider 默认 定义 的 三 个 函数 的 上 一 行 中 有 一 个 以 @ 开 头 的 函 
数 。 这 个 是 Python 的 装饰 器 。 装 饰 器 是 Python 的 高 阶 函数 ， 这 里 不 做 解释 。 有 兴趣 的 读者 
可 自行 上 网 搜索 学 习 。@every(minutes=24*60) 在 这 里 是 作为 调度 器 使 用 的 ， 意 思 是 on start 
函数 每 天 执行 一 次 。@config(age=10*24*60*60) 也 是 调度 器 ， 意 思 是 当前 request 的 有 效 期 是 
10 天 ，10 天 内 遇 到 相同 的 请 求 将 忽略 。 最 后 @config(priority=2) 是 优先 级 设置 ， 数 字 越 大 就 
越 先 执行 。 没 有 特殊 要 求 ， 一 般 不 需要 修改 默认 的 设置 。 


9.3.4 删除 项 目 


项 目 运行 完毕 ， 得 到 了 想 要 的 结果 。 保 存 好 结果 ， 这 个 项 目 就 没什么 用 处 了 。 下 一 步 就 
是 删除 项 目 了 。 删 除 Pyspider 项 目的 方法 有 两 种 。 


(1) 方法 一 : 官方 推荐 常规 的 删除 方法 是 将 需要 删除 的 项 目 状态 设置 为 STOP， 然 后 把 
项 目的 Group 修改 为 delete， 如 图 9-41 所 示 。 
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9-4 删除 项 目 常规 方法 


be - D x 
D Dashboard - pyspider x 
e C © 不 安全 | 192.168.1.80:5000 ax 
pyspider dashboard 
scheduler 0 fetcher 0 processor 0 result_worker 
0+0 
Recent Active Tasks Es 
group, Project name status rate/burst avg time progress actions 
[group] ^ oumeiMovie 13 o oo gpm E mw Active tasi 
Results 
[group] ^ storyBook 13 o oop EE 9w Active tasi 
Results 
delete test 13 o oop E s Active tag 
Results 
[group] ^ youkuHotTvList M3 o mE mw Active tas 


Results 





在 24 小 时 后 ，Pyspider 的 服务 端 就 将 该 项 目 删 除了 。 这 是 为 了 给 性 急 的 用 户 一 个 后 悔 的 


机 会 ， 如 果 认 定 不 后 悔 ， 那 就 参考 方法 二 。 


(2) 方法 二 : 在 前 面 的 章节 曾 提 过 ，Pyspider 所 有 的 文档 都 保存 在 启动 Pyspider 的 目录 
下 的 data 文件 夹 中 ， 而 所 有 的 项 目 都 保存 在 data 文件 夹 下 的 project.db 文档 内 ， 因 此 删除 
Pyspider 项 目 ， 只 需要 在 project.db 文档 中 删除 相应 的 记录 就 可 以 了 。 执 行 命令 : 


ls 

cd data 

ls 

sqlite3 project .db 

.tables 

select name from projectdb; 

delete from projectdb where name-'test'; 








du 如 果 没 有 安装 Sqlite3 ， 则 需要 使 用 apt-get 安装 。 








执行 结果 如 图 9-42 所 示 。 
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thon 网 


[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUIELY NO WARRANTY, to the extent 
[permitted by applicable law. 
Last login: Fri Dec 22 21:24:54 2017 from 192.168.1.99 
lking8debianB:-$ 1s 
code data Desktop Pictures 
$ cd data/ 

:-/data$ 1s 

result.db scheduler.ld scheduler.lh scheduler.all task.db 
king8debianB:-/data$ sqlite3 project.db 
[SQLite version 3.8.7.1 2014-10-29 13:59:56 
Enter ".help" for usage hints. 
qlite» .tables 





oukuHotTvList ~ 
e name="test!; 


qlite> delete from projectdb wher 











图 9-42 ”从 文档 中 删除 项 目 
面 ， 刷 新 一 下 ， 可 以 看 到 test 项 目 已 经 被 删除 了 ， 如 图 9-43 所 示 。 





回 到 Pyspider 控制 台 页 











m ] 
[) Dashboard - pyspider x 
€ Q |© 192,168.1.80:5000 & * i 
pyspider dashboard 
scheduler 0 fetcher 0 processor 0 result worker 
0+0 
Recent Active Tasks 
gow propor ame status rate/burst avg time progress actions. 
[group oumeiMovie DEBU: 173 o o0 Tl E Rn Active tas 
Results 
[group] storyBook T C DD ES wow 
Resuts 
[group] ^ youkuHotTvList 173 o m © ES Rew (Active tas 
Results 
5 





943 ”快速 删除 Pyspider Ji H 


同 理 ， 如 果 需 要 修改 项 目的 result, task, KH Sqlite3 命令 修改 相应 的 数据 库 文件 就 
可 以 了 。 
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Pyspider 实战 三 : 音 悦 台 MusicTop 


在 使 用 爬虫 抓 取 有 效 数 据 时 ， 有 些 网 站 用 Python 并 不 能 直接 获取 数据 。 有 的 是 需要 指定 
User-Agent 的 信息 (Python 默认 会 声明 自己 为 Python 脚本 ) ， 有 的 是 需要 cookie 数据 ， 还 有 
的 网 站 因为 一 些 缘故 无 法 直接 访问 的 还 需要 加 上 代理 ， 这 时 就 需要 在 Pyspider 中 添加 、 修 改 


headers 数据 加 上 代理 ， 然 后 向 服务 器 提出 请 求 。 相 比 Scrapy 而 言 ， 


Pyspider 修改 headers， 


添加 代理 更 加 方便 简洁 。 毕 竟 Scrapy 还 需要 修改 中 间 件 ， 而 Pyspider 更 加 类 似 bs4， 直 接 在 


源码 中 修改 就 可 以 达到 目的 。 


9.4.1 项 目 分 析 


这 次 还 是 以 音 悦 台 网 站 为 目标 ， 在 音 悦 台 中 获取 实时 动态 的 音乐 榜 单 。 音 悦 台 中 的 实时 


动态 榜 单 有 5 个 ， 这 里 只 爬 内 地 篇 的 榜 单 ， 如 图 9-44 所 示 。 


@ ues. mS. x 





€ > C [O vehartynyuetalcom * 


MV 


{VIE billboard 9oon 


Ea 


由 自己 块 定 电视 剧 《 亲 爱 的 她 们 》 HEM 


> 


cB cm 








图 9-44 音 悦 台 实 时 榜 单 内 地 篇 
从 图 9-44 中 可 以 看 出 ， 这 个 实时 的 榜 单 有 3 页 ， 共 50 首 歌 
歌曲 名 、 歌 手 名 、 评 分 以 及 当前 排名 就 可 以 了 。 打 开 页 面 编码 ， 
9-45 所 示 。 



































找到 所 需 数据 


。 只 需要 获取 当前 榜 单 的 





位置 ， 如 图 
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O neus Ska x )/ @ view-sourcenchartyin, x C7 
CŒ © view-source-vchartyinyuetai.com/vchart/trends?area=ML... yr 

















[| 
<div class="infoBox top42" name="scrollAret 


Pad <div class="score_box”> 


<h3 class="desc_score”>21.85¢/h> | < 歌曲 评分 


:="vitem J li toggle_date * 














<p class-"asc-data clearfix' 

<en class="score-decs”></en> 

<span class=" decs-nun 5-0. 004</ span> 
</p> 


</div> 
<div clas="top_num">42/div> A 当前 排名 
<div classav_infor》 
<div class-"mv info head img container J_add_convenient_container”> 
<a class="ing video-bo-ing” hrefe http: // v. yinyuetai. con/video/3111581" 











target="_blank"> 
Ging src i/ 1T = 


M 
2aft0dn3e3ega7belfd78cTb3c885d4d 240x135. ips slt- JDNKEY KING 官方 版 /> 


<div class-"bo-mask”> 
<i class="bo-icon”></> 

</div> 

Sa 
<span class="J_add_convenient” titler* 加 入 便捷 悦 单 ”dats-videor 
ide"3111581" 
style="display: none;"></span> 
</div> 


<div class="info"> 
<h3> 
<a target="_blank” class="mvname’ 
href="http: //v. yinyuetai. com/video/ 3111581" MONKEY KING 官方 版 </a> 














n3» 





图 9-45 榜 单 源码 


JG st ras HAT BH ABE <i class="vitem J li toggle date " name="dmvLi"> 这 个 标签 里 ， 
只 需要 定位 一 次 ， 就 可 以 得 到 所 有 数据 了 。 


9.4.2 WE 5 


XAU SHER Ese, TUR AS Sa GE AE SR A SE ZEAE alpha 
版 本 如 图 9-46 所 示 。 
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打 榜 动态 - 音 悦 Tai -这 x | musicTop - Debugger X 
P 199 


€ > Q [OFRE | 192.168.1.80:5000/debug/musicTop [ES 


pyspider > musicTop 








Documentation | WebDAV Mode 


"fetch": [], class Handler (BaseHandler) 

“process”: [ 9 crawl config = [ 
“callback”: "index page" 1 } 

}, 1 def init (self) 

"project": "musicIop', 12 url = 

"schedule": { "http: // vchart. yinyuet ai. com/vchart/trends? 
“age”: 864000 area-MHLbpage-" 

Hu pages= [U,'2,'3] 

"taskid': "b32c76263876646e2ale6al Tbdcf8196" , 4 self.urls = [] 

“url”: 5 for page in pages: 


"http: / [vchart. yinyuetai. con/vchart /trends? 
aresliLipage=1" 
$ 


self.urls. append (url + page) 








Gevery ninutes=24 * 60) 
def on_start (self) 

for url in self. urls: 

self. cravl (url, 

callback=self. index page) 








Gconfig(age=10 * 24 * 60 * 60) 
e(self, response) 















ittp^]' ). itens() 
self. crawl (each, attr.href, 
self. detail page) 

Tags = response. doc(' li [classe vitem 
J.li toggle date "]'). itens() 

for subTag in Tags: 
top mum = 

subTag ( div[class-"top nun']') text () 





mnane = 
subTag ( a[class-"nvnsne"]' ). text () 
er = 


(web J (htm! [ messages | subtag ( a[classm"specisl]'). tert 
[enable css selector helper | ,desc score = 

















Fd 9-46 测试 alpha AMER 

单 击 网 页 左 侧 页 面 预览 区 右上 方 的 Run 按钮 测试 一 下 。 如 图 9-46 tas, MEME AT IEF o 
现在 为 这 个 息 虫 加 上 headers 和 proxy OHH AMERI headers 和 proxy 是 因为 页 面 不 能 返 
回 数据 或 者 是 为 了 反扑 虫 需要 ， 本 例 中 页 面 是 可 以 正常 返回 的 ， 加 载 headers 和 proxy 只 是 为 
了 做 演示 ) o JERI headers 和 proxy 很 简单 ， 只 需要 在 crawl config 中 添加 相应 的 值 就 
可 以 了 。 一般 情况 下 headers 中 只 需要 添加 User-Agent 就 可 以 了 ， 但 有 的 网 页 也 许 会 限制 比 
较 严 格 ， 这 里 添加 的 headers 比较 详细 。Proxy 只 需要 给 一 个 可 以 使 用 的 代理 就 可 以 了 。 单 击 
左 侧 页 面 预览 区 右上 方 的 Run 按钮 测试 一 下 ， 如 图 9-47 所 示 。 


T] 
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@ Hens - BST X / [D musicTop - Debugger x 
E C | © 不 安全 | 192.168.1.80:5000/debug/musicTop ux 


pyspider » musicTop Documentation | WebDAV Mode 


ETE. 5m 


"fetch": { 2 4 -+- encoding: utf-8 —- 
"headers": 3 4 Created on 2018-01-02 21:16:44 
"Accep 4 # Project: musicTop 
‘text/html, application/xhtnl+anl, Snell 5 
. 9, inage/webp, inage/ png, * from pyspider. libs.base_handler import * 
“ Accept-Encoding’ gzip, tiete” n T 
"hecept-Langua; zh- 8| headers = { 
; 0. 8, zhq=0. 7, zh-TW:q=0.6", 4 
“Cache-Control” > "Accept" :"text/htal, application/xhtaltxnl, applicgt 








ion/sm1; q0. 9, inage/webp, inage/apng, */*; 0. 8", 
“User-Agent”: "Mozilla/5.0 (Windows NT 0 “Accept-Encoding”: “gzip, deflate”, 
10.0: Win64; x64) AppleWebKit/537.36 (KHTML, like 1 "Accept-Language": “er-US, en; q0. 9, zh- 
ecko) Chrome/63. 0. 3239.84 Safari/537. 36" N:q=0. 8, zh; 0. 7, zh-TW: q0. 6” 








"Cache-Control": “nax-age=0”, 
“Connection” : “keep-alive”, 
4 “User-Agent”: “Wozilla/5.0 (Windows NT 10.0; 
Vinó4: x64) AppleWebKit/537. 36 (KHTML, like Gecko) 
Chrone/63. 0. 3239.84 Safari/537. 36” 














proxy = "192. 168. 1.99: 1080" 


class Handler (BaseHandler) P d 
headers’: headers, 


'proxy': proxy 











Hassan: "b32c76263876646e2al e6al T5dcf8196" , 
“url 

“http: /) ieu yinyuetai. co vchart/t rends? 
aremlLüpagen1" 2 } 
} z 4 





def _ init__(self) 
url = 

"http: //vchart. yinyuet ai. com/vchart/trends? 

area=lLipage=" 

pages = [ 1,” 

self.urls = [] 

for page in pages: 












LS L enable css selector helper 


06 ALR EXO 









图 9-47 测试 beta HUER 


TI V as rp n] DAFT FE viri Je d 76i SIE. R headers 就 可 以 解决 问题 了 。 
浏览 器 需要 使 用 proxy FREH IFW, Meth SEU proxy 才能 得 到 数据 。 如 果 网 站 中 
RATER, PES EIR IP 的 情况 下 怎么 办 呢 ? 正常 的 应 对 方法 是 使 用 多 个 代理 
服务 器 进行 轮 询 。 通 过 网 络 搜索 得 到 为 Pyspider 加 载 多 个 代理 的 方法 是 使 用 squid 轮 询 。 这 
种 方法 是 可 以 ， 但 需要 安装 squid 软件 ， 而 且 squid 设置 起 来 也 比较 麻烦 。 这 里 采用 更 加 简单 
的 方法 ， 只 要 在 息 虫 发 送 请 求 的 部 位 ， 随 机 地 从 代理 池 中 挑选 一 个 代理 就 可 以 了 〔 按 顺序 挑 
选 也 可 以 ， 这 就 相当 于 代理 的 轮 询 了 ) . Db. ERRARE omega 版 的 代码 如 下 : 


#!/usr/bin/env python 

3 -*- encoding: utf-8 -*- 

# Created on 2018-01-02 21:16:44 
# Project: musicTop 


from pyspider.libs.base handler import * 
import random 


headers - ( 
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"Accept": "text/html, application/xhtml+xml, application/xml;q=0.9,image/webp, ima 
ge/apng, */*;q=0.8", 

"Accept-Encoding":"gzip, deflate", 

"Accept-Language": "en-US, en; q=0.9, zh-CN; q=0.8, zh; q=0.7, zh-TW; q=0.6", 

"Cache-Control":"max-age-0", 

"Connection":"keep-alive", 

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" 

H 
proxybist = ["192.168.1.99:1080","101.68.73.54:53281", ""] 


class Handler (BaseHandler): 
crawl config - ( 
+ "proxy" :proxy, 
# "headers": headers 
} 
def init (self): 
url = 'http://vchart.yinyuetai.com/vchart/trends?area-ML&page-' 
pages = ['1', '2', '3'] 
self.urls = [] 
for page in pages: 
self.urls.append(url * page) 


@every (minutes=24 * 60) 
def on_start (self): 
for url in self.urls: 
self.crawl(url, callback-self.index page, 
proxy-random.choice(proxyList), headers-headers) 


Gconfig(age-10 * 24 * 60 * 60) 
def index page(self, response): 
# for each in response.doc('a[href^-"http"]').items(): 
+ self.crawl(each.attr.href, callback=self.detail_page) 
Tags = response.doc('li[class-"vitem J li toggle date "]').items() 
for subTag in Tags: 
top num - subTag('div[class-"top num"]').text() 
subTag('a[class-"mvname"]').text() 


mvname 
singer = subTag('a[class-"special"]').text() 

desc score - subTag('h3[class-"desc score"]').text() 
print('$s %s %s $s' $(top num, mvname, singer, desc score)) 
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@config (priority=2) 
def detail page(self, 
return ( 


"url": response.url, 


response): 


"title": response.doc('title').text(), 


i 


“HIME AAT index page 函数 需要 发 送 请 求 ， 因 此 ， 
一 个 代理 加 入 参数 就 可 以 了 。 单 击 息 虫 页 面 左 侧 预览 栏 右上 方 的 Run 按钮 测试 一 下 ， 结 果 如 





图 9-48 所 示 。 
fast = n x 
@ as - BTai -ib x / [] musicTop - Debugger x 
€ Q | © 不 安全 | 192.168.1.80:5000/debug/musicTop & t f 
pyspider > musicTop Documentation | WebDAV Mode 
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; 4 area-MLipage~” 
aga- Dr, T E 
"proxy": "101.68. 73. 54: 53281" self.urls = [] 
for page in pages: 





"process": { 
"callback" 
h 
"project": “musicTop”, 
"schedule": { 

“age”: 864000 


"index page" 


"taskid": "be6a6f478b442Tf65db5e4d69543a668", 
^url': “http: //vchart. yinyuetai. com/vchart/trend 


index ps 





“fetch”: { 
"headers": { 
"Accept": “text/html, application/xhtml 
“Accept-Encoding”: “gzip, deflate’, 
“Accept-Language”: “err US, en; q0. 9, hN: 0 
"Cache-Control”: “max-age=0", 
"Comnection': "keep-alive", 
“User-Agent”: "Mozilla/5.0 (Windy NT 10.0: 
“proxy”: "192.169. 1.99: 1080" 
"process": { 


"callback": "index page" 


h 
pnd " 
"sd web | | html | follows 3] messages | 
, age”: 864007 enable css selector helper | Ed 















. subTag (13 [class="desc_score”]”).text() 


jm" 
i J.li toggle | So "T ). itens() 


mane = 
. SubTag( a[class mwmnane ] ). text 0 


self.urls. append(url + page) 


@every (ninut es=24 * 60) 
def on_start (self): 
for url in self. urls: 
self. crawl (url, 
back=self, index page, 
oxysrandom.choice(proxyList), headers-headers) 











@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in 
response. doc (' a[href ="http"]" ). items(): 
# self. crawl (each. attr. href, 
aa CoS 
= response. doc(' li[class-"vitem 


for sublag in Tags: 


top mum = 
subTag ( div[class-"top nun"]'). text ) 


singer = 
subTag ( a[class-": EE 1).textQ 
desc score = 


print(Xs Ws Ws Ws %(top_mum, 
mvname, singer, desc score)) 





confi s (priority-2) 


只 需要 在 回调 这 个 函数 时 随机 挑选 


这 里 需要 注意 的 是 ， 代 理 池 中 的 所 有 代理 必须 


图 9-48 Rese ye 
Hen SEAT AM. Jy f ea, BP AEE 


虫 中 添加 一 个 测试 程序 ， 在 每 次 使 用 代理 前 做 个 测试 。 如 果 网 站 是 通过 IP 来 判断 用 户 身 份 





的 ， 就 使 用 该 代理 IP。 如 果 是 通过 User-Agent 来 判断 用 户 身份 ， 那 就 轮 询 或 者 随机 挑选 
User-Agent。 如 果 是 通过 Cookies 来 判断 用 户 ， 那 就 轮 询 或 随机 选 Cookies…*… 总 之 ， 网 站 的 
反 疏 虫 防 哪 一 部 分 ， 疏 虫 就 需要 绕 过 这 一 部 分 。 
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OR 
7.9 BENE 

Pyspider ntf HIME duse AST ni TA f Hh AE AS AB AC FS SAL PH BE OE GY Ta A 
MEH, Wü Pyspider 则 与 众 不 同 地 采用 了 类 似 深度 优先 的 方法 。 另 外 ， 其 他 的 爬虫 大 多 都 
是 先 难 后 易 ， 在 写 代 码 时 可 能 比较 困难 ， 但 调试 就 比较 简单 了 《〈 即 使 没有 IDE 的 配合 ， 调 试 
也 比较 简单 ) ， 代 码 中 出 现 问题 ， 可 以 很 容易 地 找到 bug e M Pyspider 则 相反 ， 在 编写 代 
码 时 能 很 直观 地 看 到 效果 ， 但 调试 起 来 并 不 方便 ， 没 有 相应 的 错误 提示 ， 只 能 靠 经 验 一 遍 遍 
地 检查 才能 找到 bug 点 。 它 作为 疏 虫 还 是 相当 优秀 的 ， 但 是 支持 的 文档 比较 少 ， 有 什么 问 
题 ， 基 本 只 能 靠 自己 慢 慢 地 摸索 ， 还 有 待 于 优化 和 推广 。 
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第 1085 
< MDSfahes » 


FEA FUME RBA, BEGET NRTA, AEA REA AES BE TKI AB o 
以 用 户 的 角度 来 看 ， 他 只 想 获 取 网 站 的 数据 ， 对 其 他 的 内 容 完 全 不 感 兴趣 。 以 网 站 方 的 
角度 来 看 ， 他 只 想 为 正常 上 网 用 户 提供 服务 。 为 网 络 机 器 人 《〈 了 Python ER) 提供 数据 并 不 能 





获取 有 效 流量 (利益 ) ， 那 么 网 站 以 技术 〈 反 有 疏 虫 技术 ) 拒绝 网 络 息 虫 ， 也 就 是 理所当然 应 
该 考虑 的 了 。 


双方 都 有 充足 的 理由 ， 使 用 起 “武器 ”来 自然 也 是 毫 不 手软 。 扑 虫 与 反扑 虫 的 斗争 
- 直 都 在 进行 着 ， 可 能 永远 都 不 会 停止 ， 到 底 是 矛 更 加 尖锐 还 是 盾 更 加 坚固 ， 就 看 各 自 
的 手段 了 。 

扑 虫 在 很 多 场景 下 的 确 是 有 必要 的 ， 但 现在 候 虫 技术 的 使 用 已 经 处 于 失控 状态 。 据 说 目 
前 网 络 流量 中 有 60% 以 上 都 是 由 爬虫 提供 的 ， 这 就 未 免 有 些 过 分 了 。 而 且 有 些 怜 虫 即使 获取 
不 到 任何 数据 ， 也 会 孜孜 不 倦 地 继续 工作 ， 永 不 停息 。 这 种 失控 的 爬虫 只 会 不 停 地 消耗 资 
源 ， 对 相关 的 双方 都 没有 好 处 。 


防止 他 虫 IP 被 禁 


先 来 假设 一 段 场景 。 一 个 普通 的 网 络 管理 员 ， 发 觉 网 站 的 访问 量 有 不 正常 的 波动 ， 通 常 
第 一 反应 就 是 检查 日 志 ， 查 看 访问 的 IP。 此 时 如 果 发 现 某 一 个 或 几 个 IP 在 很 短 的 时 间 内 发 
出 了 大 量 的 请 求 ， 比 如 每 秒 10 次 ， 那 么 这 个 IP 就 有 怜 虫 的 嫌疑 ， 正 常用 户 是 不 可 能 有 这 种 
操作 速度 的 ， 就 算是 以 最 快 的 速度 点 击 刷新 按钮 也 不 可 能 每 秒 10 次 。 





10.1.1 RMRATH 
对 付 这 种 IP， 最 简单 的 方法 是 一 禁 了 之 。 实 际 上 不 管 是 Apache 还 是 Nginx 都 可 以 对 同 
- IP 的 访问 频率 和 并 发 数 做 出 限制 ， 修 改 Apache 或 者 Nginx 的 配置 文件 就 可 以 解决 。 但 在 
Apache 或 Nginx 中 设置 禁止 访问 的 IP 后 ， 需 要 重启 服务 才能 生效 。 所 以 还 需要 考虑 采用 更 
方便 的 方法 。 正 常 来 说 ， 空 间 主机 都 有 主机 管理 面板 ， 找 到 IP DR, ASEM IP 填 进 
去 就 可 以 了 ,如 图 10-1 所 示 。 
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ESUR 360 网 站 卫士 BEER 





© ws 
添加 白 名 单 IPSS SS 配置 
图 10-1 限制 了 


也 可 以 用 网 站 安全 狗 之 类 的 软件 设置 黑 名单 。 限 制 访问 IP 的 方法 很 多 ， 任 意 选 一 种 都 能 
达到 目的 。 

这 样 一 禁 了 之 当然 简单 ， 但 是 有 时 候 会 误伤 正常 用 户 。 同 一 IP 大 量 发 送 请 求 ， 只 是 有 疏 
虫 嫌疑 ， 但 并 不 一 定 就 是 仆 虫 。 一 个 人 当然 不 能 每 秒 10 次 的 发 送 请 求 ， 但 10 个 人 呢 ? 要 知 
道 目前 主流 使 用 的 是 IPv4 协议 ，IP 数量 严重 不 足 ， 很 多 局 域 网 都 是 使 用 NAT 共用 一 个 公 网 
IP 的 ， 一 个 大 的 局 域 网 每 秒 发 送 10 “MARAE. KURI A ER, TAT 
可 封锁 一 千 也 不 放 过 一 个 ， 所 以 还 需要 其 他 的 方法 来 分 辨 肘 虫 。 

先 写 一 个 简单 的 Python 程序 来 连接 网 站 ， 再 跟 浏 览 器 连接 网 站 比较 一 下 。 在 Burp Suite 
中 可 以 非常 清楚 地 看 到 它们 的 区 别 。 连 接 程序 connWebWithProxy.py 的 代码 如 下 : 

#!/usr/bin/env Python3 

#-*= coding:utf-8 -*- 


import urllib.request 
import sys 


proxyDic = ('http': 'http://127.0.0.1:8080') 


def connWeb (url): 
proxyHandler - urllib.request.ProxyHandler (proxyDic) 
opener = urllib.request.build opener (proxyHandler) 
urllib.request.install opener (opener) 
ery. 

response = urllib.request.urlopen (url) 

htmlCode = response.read().decode('utf-8') 
except Exception as e: 

print("connect web faild...") 


print (e) 
else: 
print (htmlCode) 
i£ name == 0 pain s 


url = sys.argv[1] 
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connWeb (url) 


注意 : — http://127.0.0.1:8080 是 Burp Suite 的 监听 端口 。 
执行 命令 : 


python connWebWithProxy.py study.163.com 
执行 结果 如 图 10-2 所 示 。 


Bl Burp Suite Free Edtion v1.7.2 


Burp Intruder Repeater Window Help 























Sequencer | Decoder | Comparer | Extender | Project options | User options 
Jae joe os | sme | mo 


[i [athe | vases [one] 























| Fiter Hang CSS. image and general trary content 








Host | Method | URL 


Params | Edited | Status 
A Mtp study 163.com se ]; 























Berd - python corriWebWibProxy py Mup;/studyG3com 
Bl <i> cma python c. EZ 


link v0.4.8 [git:d56Sed] Copyright (c) 2012-2616 Marti 
ttp: //mridgers .github.io/clink 


icrosoft Windows [版本 10.0.16299.431] 


ingBMINDOuS19 C:\Users\kcing\Desktop 
»[pythen connusbiithProxy.py nttp://study.163.con 





thon-urilib/3.E 





FA 10-2 Python 程序 连接 网 站 
可 以 看 到 使 用 Python 程序 连接 网 站 时 ，User-Agent 的 值 是 Python-urlib/3.6。 在 浏览 器 
中 ， 使 用 Burp Suite 的 监听 端口 为 代理 ， 连 接 网 站 得 到 的 结果 如 图 10-3 所 示 。 


Bl burp suite Fr 2 
| Burp iude Repeater Window Help 


Sequencer | Decoder | Comparer | Extender | Proectopions | Useroptions | Aens | 
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Target. Spdor ‘Scanner Intruder l Ropoator | 
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| Host [Method | URL 
(1. Mib/staty 163 com GET d 





2  [htp/istudy 163 com Gr |]! 














O mREZSE-e x8 e x | 





@ study.163.com 











search translation 














图 10-3 浏览 器 连接 网 站 
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浏览 器 连接 网 站 时 ，User-Agent 显示 的 是 浏览 器 的 信息 。 通 过 对 比 可 以 得 知 ， 服 务 器 端 
如 果 发 现 请 求 的 User-Agent 中 含有 Python 等 字符 串 的 ， 那 必定 是 机 器 人 (Python E) 发 
送 的 请 求 。 

因此 ， 网 管 就 可 以 得 出 结论 : 凡是 在 某 个 时 间 段 频繁 连接 服务 器 ， 并 且 发 送 请 求 的 User- 
Agent 中 含有 Python 等 字符 串 的 就 是 息 虫 。 对 这 类 IP 一 封 了 之 ， 必 定 没 错 。 


10.1.2 ”爬虫 的 应 对 


ER IP 被 封锁 了 ， 写 怜 虫 的 程序 员 反 思 了 一 下 ， 到 底 是 哪个 方面 露出 了 马 脚 。 首 先 该 考 
虑 的 就 是 User-Agent 和 疏 虫 的 时 间 间 隔 ， 这 是 最 容易 出 漏洞 的 地 方 。 毕 竟 User-Agent 是 如 此 
的 明显 ， 而 且 不 停 地 发 送 请 求 ， 只 要 网 络 管理 员 愿 意 花 点 功夫 ， 就 一 定 可 以 鉴别 出 爬虫 。 

已 知 破绽 ， 那 就 需要 有 针对 性 地 修改 候 虫 程序 。 

首先 ， 在 每 次 请 求 时 添加 一 个 delay 间隔 时 间 。 这 个 时 间 既 要 兼顾 效率 ， 不 宜 设 置 得 太 
长 ， 也 不 能 设置 得 太 短 ， 避 免 被 服务 端 发 觉 。 一 般 来 说 5-10 秒 都 是 没 问 题 的。 不 要 使 用 一 
个 固定 值 ， 使 用 random 随机 选择 delay 的 值 最 佳 。 

其 次 ， 收 集 User-Agent， 组 成 一 个 User-Agent 池 。 每 次 发 送 请 求 时 ， 从 User- 
Agent 池 中 随机 获取 一 个 User-Agent， 让 服务 器 认为 发 送 请 求 的 不 是 网 络 爬 虫 ， 而 是 一 
个 大 型 的 局 域 网 。 在 前 面 章 节 中 的 聆 虫 都 是 这 么 做 的 。 这 里 再 举 一 个 简单 的 例子 ， 把 
connWebWithProxy.py 稍微 修改 一 下 ， 最 终 得 到 的 connWebWithUserAgent.py 程序 代码 
如 下 : 

#!/usr/bin/env python3 

$-*- coding:utf-8 -*- 


import urllib.request 
import sys 
import random 


import time 


proxyDic = ('http': 'http://127.0.0.1:8080'} 
userAgentDic = { 

"淘宝 浏览 器 2.0 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 
Safari/536.11', 

ESHER 2.0.10.3198 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows 
NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 
Safari/537.1 LBBROWSER', 

ESHA 2.0.10.3198 兼容 模式 on Windows 7 x64': 'Mozilla/5.0 
(compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 
2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 
6.0; .NET4.0C; .NET4.0E; LBBROWSER)', 
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"猎豹 浏览 器 2.0.10.3198 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 6.0; Windows NT 5.1; SV1; QODownload 732; .NET4.0C; .NET4.0E; 
LBBROWSER)', 

FSSA 1.5.9.2888 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 
6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 
Safari/535.11 LBBROWSER', 

‘ESM 1.5.9.2888 兼容 模式 on Windows 7 x64': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET 
CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)', 

"00 浏览 器 7.0 on Windows 7 x64 IE9': 'Mozilla/5.0 (compatible; MSIE 9.0; 
Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 
3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; 
QQBrowser/7.0.3698.400)', 

"QO 浏览 器 7.0 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; MSIE 6.0; 
Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)', 

'360 安全 浏览 器 5 .0 自 带 TES 内 核 版 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 
732; .NET4.0C; .NET4.0E; 360SE) ', 

"360 安全 浏览 器 5.0 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; MSIE 
6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E) ', 

"360 安全 浏览 器 5.0 on Windows 7 x64 IE9': 'Mozilla/4.0 (compatible; MSIE 
7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 
3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E) ', 

"360 急速 浏览 器 6.0 急速 模式 on Windows XP x86': 'Mozilla/5.0 (Windows NT 
5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1', 

"360 急速 浏览 器 6.0 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; 
WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1', 

"360 急速 浏览 器 6.0 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E) 


1 
, 


"360 急速 浏览 器 6.0 兼容 模式 on Windows 7 x64 IE9': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET 
CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E) ', 

"360 急速 浏览 器 6.0 IE9/IE10 模式 on Windows 7 x64 IE9': 'Mozilla/5.0 
(compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 
2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 
6.0; .NET4.0C; .NET4.0E) ', 

"搜狗 浏览 器 4.0 高 速 模式 on Windows XP x86': 'Mozilla/5.0 (Windows NT 5.1) 
AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X 
MetaSr 1.0', 

"搜狗 浏览 器 4.0 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 
SE 2.X MetaSr 1.0) ', 
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"Waterfox 16.0 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; Win64; 
x64; rv:16.0) Gecko/20121026 Firefox/16.0', 

'iPad': 'Mozilla/5.0 (iPad; U; CPU OS 4 2 1 like Mac OS X; zh-cn) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 
Safari/6533.18.5', 

'Firefox x64 4.0b13pre on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; 
Win64; x64; rv:2.0bl3pre) Gecko/20110307 Firefox/4.0b13pre', 

'Firefox x64 on Ubuntu 12.04.1 x64': 'Mozilla/5.0 (X11; Ubuntu; Linux 
x86 64; rv:16.0) Gecko/20100101 Firefox/16.0', 

'Firefox x86 3.6.15 on Windows 7 x64': 'Mozilla/5.0 (Windows; U; 
Windows NT 6.1; zh-CN; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15', 

'Chrome x64 on Ubuntu 12.04.1 x64': 'Mozilla/5.0 (X11; Linux x86 64) 
AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 

'Chrome x86 23.0.1271.64 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 
6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 
Satarr/5b3q TL 

'Chrome x86 10.0.648.133 on Windows 7 x64': 'Mozilla/5.0 (Windows; U; 
Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) 
Chrome/10.0.648.133 Safari/534.16', 

'IE9 x64 9.0.8112.16421 on Windows 7 x64': 'Mozilla/5.0 (compatible; 
MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)', 

'IE9 x86 9.0.8112.16421 on Windows 7 x64': 'Mozilla/5.0 (compatible; 
MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)', 

'Firefox x64 3.6.10 on Ubuntu 10.10 x64': 'Mozilla/5.0 (X11; U; Linux 
x86 64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) 
Firefox/3.6.10', 

'Andorid 2.2 自 带 浏览 器 ， 不 支持 HTML5 视频 ': 'Mozilla/5.0 (Linux; U; Android 
2.2.1; zh-cn; HTC Wildfire A3333 Build/FRG83D) AppleWebKit/533.1 (KHTML, like 
Gecko) Version/4.0 Mobile Safari/533.1', 

lj 


def connWeb (url): 
proxyHandler - urllib.request.ProxyHandler (proxyDic) 
opener = urllib.request.build opener (proxyHandler) 
urllib.request.install_opener (opener) 
headers = ('User-Agent': random.choice (list (userAgentDic.values())) } 
delay = random.choice(range(5, 11)) 
try: 
request = urllib.request .Request (url, headers=headers) 
response = urllib.request.urlopen (request) 
htmlCode = response.read().decode('utf-8') 
except Exception as e: 
print("connect web faild...") 
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print (e) 


else: 
print (htmlCode) 
time.sleep (delay) 

if _ name == ' main ': 


url = sys.argv[1] 


connWeb (url) 
在 终端 下 执行 命令 : 
Python connWebWithUserAgent .py 
执行 结果 如 图 10-4 所 示 。 
E 


http://study.163.com 
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GET / HTTP/1.1 
Host: study.163.com 

jser-Agent: Mozilla/4.0 (compatible; 
SE 732; .NET4.0C; .NET4.0E; 
Connection: close 























B <1> 管理 员 : cmd - pyth.. Search 
link v6.4.8 [git:d565ad] Copyright (c) 2012-2016 Martij 
ttp: //mridgers.github.io/clink 


icrosoft Windows [版 本 10.0.16299.431] 


ing@WINDOWS19 E g\Desk 
python connWebWithUserAgent.py http://study.163.com 

















图 10-4 Python 隐藏 特征 连接 网 站 
可 以 看 到 ， 这 次 连接 随机 选择 了 QQ 浏览 器 的 User-Agent， 让 服务 端 认 为 本 次 连接 是 由 


QQ 浏览 器 发 出 的 。 如 果 觉 得 还 不 够 隐蔽 


， 还 可 以 在 headers 中 加 上 Accept, Host 


iE d 


发 出 的 请 求 更 像 浏览 器 。 另 外 ， 在 程序 中 还 随机 地 暂停 了 5-10 秒 ， 让 程序 看 起 来 更 像 是 人 


在 操作 ， 尽 量 避 免 被 服务 端的 管理 员 发 觉 
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10.2. 在 他 虫 中 使 用 Cookies 


对 付 一 般 简单 的 静态 网 站 ， 使 用 delay 和 模拟 浏览 器 基本 上 就 够 用 了 ， 但 是 有 些 具 有 商 
业 价 值 的 网 站 ， 为 了 避免 商业 损失 会 采取 各 种 手段 防止 怜 虫 疏 取 数据 。 这 就 不 是 能 用 简单 方 
法 来 解决 的 问题 了 。 


10.2.1 通过 Cookies [s [E 


以 浏览 study.163.com 为 例 ， 捕 捉 浏览 器 发 送 的 请 求 ， 然 后 和 运行 
connWebWithUserA gent.py 捕 提 得 到 的 结果 比较 一 下 ， 如 图 10-5 所 示 。 


ZAA SSE) BS) BAG 文件 (F) we) Be) BO) EEV) 帮助 (H) 
suus i} PO sme Sx| + BO |)0wm.&SGge-00PiE 


Burp Intruder Repeater Windd| Burp Intruder Repeater Window Help 























oder | Comparer | Extender | Project options [ 
prem Spider Scanner Intrude 




















QC QO study.163.com 








Host: study.163.com 
Upgrade-Insecure-Requests: 1 
User-Agent: Mozilla/S.0 (Windows NT 
Gecko) Chrome/é€.0.3359.181 Safari/S 

gpl Accent: 

“Of cexc/ntmi, application/xhtml+xm1, app 

3 CN, zh; q=0.S,en-U 

















[/36 x 581 x 24 BPP 4/5 10038736 x581x24 BPP 5/5 100% 100.32 KB/1.22MB 2018/5/19 / 21:47:07 


图 10-5 ”比较 捕捉 结果 


我 们 可 以 发 现 Python 程序 发 送 的 请 求 和 浏览 器 发 送 的 请 求 相 比 ， 除 了 缺少 Host. 
Accept, Accept-Language 等 部 分 外 《这些 缺少 的 部 分 都 可 以 在 headers 中 自行 添加 ) ， 还 缺 
少 一 个 重要 部 分 Cookies. 

Cookies 可 以 简单 理解 为 服务 器 发 给 客户 端的 身份 证 。 这 个 Cookies 是 浏览 器 在 连接 服务 
器 时 自动 生成 的 〈 大 部 分 时 候 都 是 通过 用 户 登录 来 获取 Cookies， 有 时 候 登录 还 特别 复杂 ， 
有 验证 码 、 验 证 条 什么 的 ) ， 每 次 请 求 发 送 的 Cookies 都 不 同 。 所 以 服务 器 可 以 通过 检查 
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Cookies 来 判断 连接 过 来 的 请 求 到 底 是 来 自 于 浏览 器 还 是 来 自 于 机 器 人 程序 。 


10.2.2 # Cookies AMER 

EBRD TA, BA CMEA. AEE ERS ABO, 最终 得 到 的 Cookies 中 有 关 
EO BE BY SE — BY oA ihe BEI e FE ARS ITE REA) DE OK. aS A HR 
Cookies 相应 的 部 分 。 这 样 就 可 以 “ 骗 过 ”服务 器 继续 获取 数据 了 。 这 种 方法 并 不 总 是 有 效 
(比如 网 站 中 含有 token 验证 的 就 不 行 ) ， 只 能 解决 部 分 问题 。 

原理 就 是 先 用 浏览 器 登录 一 遍 网 站 ， 并 截取 得 到 Headers 和 Cookies fa, AUG EFIE 
虫 利用 现 有 的 Headers 和 Cookies 伪装 成 浏览 器 ， 继 续 从 网 站 服务 端 获 取 数 据 。 

还 是 以 http://study.163.com 为 例 。 先 打开 页 面 登 录 ， 然 后 用 Burp Suite 截取 登录 后 的 
Headers 和 Cookies， 如 图 10-6 所 示 。 





» 
ABFE Retie 505510057 "PEEASMOOC c 
已 登录 


我 的 学 习 Be BME HRBU hstking p 





Burp Intruder Repeater Window Help 




















国 Request to http://study.163.com:80 [223.252.199 7] 





Forward || Drop | | Interceptison | | — Action ent this ite ig (2) 
Raw | Params | Headers | 


Headers & Cookies 


—— 











ache-Control: max-age=0 
pgrade-Insecure-Requests 
jser-Agent: Mozilla/S.0 (Windows NT 10.0; Winé4; xé4) AppleWebKit/537.3€ (KHTML, 
ike Gecko) Chrome/£6.0.3359.181 Safari/537.3€ 
ccept: 
ext/html, spp ication/xnemltaml, application/xml; TO, 9, image/ vebp, image/apng, */*;q=0.8 
h;q=0.9, en-US; q=0.8, en; q"0 
7C lepySFL* ~ 
38ebde4 caf092c 
S2d7bes £78b7a‘ 
zf9b887 
4770444 
3d8bca4 mc=1294 
348905; 
=(orgar 

















图 10-6 登录 后 截取 Headers 和 Cookies 


在 这 个 Cookies 中 就 包含 了 用 户 登 录 的 凭证 。 接 下 去 就 可 以 利用 已 获取 的 Headers 和 
Cookies i SEHFE? fakeBrowser.py, ¥ Headers 和 Cookie 加 入 到 程序 内 ， 如 图 10-7 所 
示 。 
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An s80 880 GEM SEN) SEM TRO) SM EGG) SEP BOW 7 
SSH a ias 4 | 2 Cif IE] xem pu 





if name 一 ， mie t: 
uel - sys.argv [1] 


response = requests.get(url, headerseheaders, cookiesecookies, proxieseproxyDic, timeout=3) 








图 10-7 fakeBrowser.py 代码 


注意 : 图 10-7 中 一 块 空白 是 为 了 隐藏 代码 中 的 个 人 敏感 信息 。 
在 终端 下 执行 命令 : 


Python fakeBrowser.py http://study.163.com 


使 用 Brup Suite 截取 疏 虫 程序 发 送 的 requests， 如 图 10-8 所 示 。 


HE spng - Irfanview 
ZAD RAO Be WMO SEV WAH 
SaS] Haga | Ooa Q e 110 P me 











Burp Suite Free Edition v1.7.21 - Temporary Project 



















































































- Oo x 
Burp Intruder Repeater Window Help 
Sequencer Decoder Comparer | Extender I Project options | User options | Alerts 
Target Spider I Scanner Í Intruder I Repeater 
Turns | Weveocrets matory | orons | 
Fiter: Hiding CSS, image and general binary content JESE SEAT Je 
| Host | Params | Edited | Status | Length | 
|1  ntp//study.163.com GET / [s] | 
2 http//study.163.com cer s 
| http://study.163.com/ 
Addtoscope o 
| FERE HR RAS IRR Spider from here. 
ER SFI Do an active scan re 
r] fe es Send to Intruder Crist 
Send to Repeater CuieR 
[Raw | Params | Headers | Hex Send to Sequencer 
GET / HTTP/1.1 n 
Host: study-153 .com 
User-Agent! Nozilla/S.0 (Windows NT 10.0; vinea| Request in browser z 
like Gecko) Chrome/66.0.3359.181 Safari/537-36 | Engagement tools [Pro version only] >| f 
Accept: EDU ED KOC EEEE 
text/html, applicaricn/vhtmlixmlapplication/smi| Show new history window 
Connection: close 





Add comment 
Highlight > kci 
1720 x 567 x24 BPP 8/8 100% 70.62KB/1.17 MB 2018/5/23 / 00:57:11 


10-8 ”截取 扑 虫 的 request 








m 
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Python WERKA E 2 版 


最 后 查看 比较 结果 ， 如 图 10-9 所 示 。 


图 sm on 1.721 - Temporary Project - a 
Burp Intruder Repeater. Window = 






























































Target Proxy Sper | Scamer | imoer | Rapeaer 
Sequencer | Decoder — Extender | Project options | User options | Mets 
2433 
2405 
Bil Word compere of #1 and #2 (5 differences) = n0 x 
Length: 2433 €) Tex O Hex Length: 2405 @ Text © Hex 
GETJWTIPA.A GET/HITPAL1 
Host. study 163 com Host. study. 163 com. 


User-Agent: Mazila/s C (Windows NT 10.0: Win6s: x64) A, 
Accept textihtml applicationátmke ml appicstioncm 

User-Agent: Mozila/5.0 (Windows NT 10.0; Winól: x64) Connection: close. 

Accept-Language: zh-CN,zh;qn0.9,en-US;q~0.8,0n;970.7 


Cookie: EC Ki 

NTES PAS i 
P_INFO=hstkir [m »| 
STUDY PERS. STUDY PE E 


ibd 

















koy IMG DR. nt 











FA 10-9 比较 request 


彩色 部 分 〈 彩 图 可 从 前 言 给 的 地 址 下 载 ) 是 有 差异 的 地 方 ， 这 些 差 异 多 数 是 时 间 惟 等 一 
些 会 自动 变化 的 变量 ， 一 般 不 影响 使 用 效果 。 也 可 以 将 这 些 自动 变化 的 变量 挑 出 来 ， 不 写 入 
到 有 疏 虫 程序 内 ， 也 不 会 影响 最 终 效 果 。 将 怜 虫 得 到 的 结果 载 入 浏览 器 中 ， 如 图 10-10 所 示 。 
[Bi burp Suite Free Edition vi721-TemporayProet -oO x| 
Burp Intruder Repeater Window Help 


Target Proxy Spider 











| Project options | User options | Alerts 














Le Ji Cael | | <ie | | xiv. Target: http://study.163.com Be 


Request Response 





<link rel="dns-prefetch" 








tudy. 163 .com href-"//imgsize.ph.126.net"/» 
User-Agent: Mozilla/S.O (Windows NT <link rel="dns-prefetch” 
10.0; Winé4; x64) href="//img0.ph, 12€.net"/> 
AppleWebKit/S37.36 (KHTML, like 

Gecko) Chrome/€6.0.3359.181 Spider 

Safari/537.3€ Í Gry 

[Acespts Do an active scan 

text/html, application/xhtml+xml, appli 4 


Do a passive scan 





q=0.8, image/ vebp, image/ap 4 
8 




















‘Send to Intruder Ctrl 
: close 4 
Accept-Language: Send to Repeater CtriR. 
zh-CN, zh; q=0.9, en-US; q-0.8, en; q-0.7 <| Send to Sequencer > 
Cookie: 4 
ee 2| Send to Comparer 
3 search term | 0 matches ‘Send to Decoder ches 
Show response in browser 3 
: 37 millis 
Request in browser > 





图 10-10 REEE RAK A TS 
RRMA BEA DU VS S8 EE E RAE ER E RE TE BY o 
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10.2.3 x] nis me 

作为 服务 器 一 方 ， SER A, IRB ACE REMORSE TUE 
AE SAAT, MAUS DERE. JU COKE D As EAER AT E Hob. MERE 
J £i fe cb ftr; el o 

ree rfe cb eves aca RT 27 s ABL R4. D CE D A E h ER PCS 
使 用 JavaScript 等 方式 动态 加 载 。 这 样 一 来 ， 机 器 人 发 送 的 请 求 并 不 会 “激活 ”JS 脚本 ， 也 
就 得 不 到 数据 。 目 前 很 多 网 站 都 采用 了 这 种 方式 来 防止 疏 虫 。 可 以 说 ， 这 种 方法 的 确 很 好 
用 ， 彻 底 改 变 了 疏 虫 运行 模式 ， 疏 虫 再 也 不 能 简单 快捷 地 获取 到 数据 了 。 


10.2.4 ”使 用 浏览 器 获取 数据 


动态 加 载 数据 也 不 是 无 法 破解 的 。 既 然 模拟 浏览 器 的 方法 不 能 获取 到 数据 ， 那 就 直接 使 
用 浏览 器 的 核心 来 获取 数据 。 

前 面 章节 中 提 到 过 的 Selenium 和 PhantomJS 都 是 采用 这 种 方法 来 获取 数据 的 。 只 是 这 种 
方法 的 速度 非常 慢 ， 如 果 目 标 只 有 几 十 页 ， 还 能 忍受 ， 如 果 目 标 达到 了 上 百 页 ， 算 一 下 投入 
的 成 本 和 得 到 的 数据 ， 那 还 是 放弃 吧 。 这 也 是 服务 器 反扑 虫 的 一 种 方法 ， 让 息 虫 付出 的 成 本 
和 收获 不 成 比例 ， 爬 虫 自 然 就 没有 动力 了 。 


10.3 sane 


MR te SEE AS JG ALOE fos fad AE LAE [ig AE OK E HE H8 A irj dis UT I AE 
清洗 数据 ， 几 乎 都 是 在 Request 的 headers 里 做 手脚 。 稍 微 复杂 一 点 的 候 虫 ， 则 是 通过 伪造 
Cookies 或 者 使 用 浏览 器 内 核 从 网 站 获取 数据 。 到 这 一 步 就 差不多 把 爬虫 获取 数据 的 路 子 走 
到 头 了 。 非 要 更 进一步 ， 那 就 只 有 使 用 代理 池 轮 询 这 种 终极 手段 了 。 

再 高 级 一 点 的 聆 虫 技 术 是 带 有 数据 分 析 和 存储 功能 的 。 作 为 个 人 用 户 而 言 ， 只 要 能 疏 取 
到 数据 就 算 成 功 ， 后 面 的 数据 分 析 和 存储 几乎 用 不 上 。 这 一 点 提出 来 后 供 读者 参考 。 

最 后 祝 大 家 在 Python 网 络 疏 虫 技术 上 不 断 进步 。 
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